Fugu-MT 論文翻訳(概要): Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans

論文の概要: Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans

arxiv url: http://arxiv.org/abs/2110.04994v1
Date: Mon, 11 Oct 2021 04:21:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-13 06:25:17.942620
Title: Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision Datasets from 3D Scans
Title（参考訳）: Omnidata: 3Dスキャンからマルチタスクのミッドレベルビジョンデータセットを作成するスケーラブルパイプライン
Authors: Ainaz Eftekhar, Alexander Sax, Roman Bachmann, Jitendra Malik, Amir Zamir
Abstract要約: 本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
参考スコア（独自算出の注目度）: 103.92680099373567
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a pipeline to parametrically sample and render multi-task vision datasets from comprehensive 3D scans from the real world. Changing the sampling parameters allows one to "steer" the generated datasets to emphasize specific information. In addition to enabling interesting lines of research, we show the tooling and generated data suffice to train robust vision models. Common architectures trained on a generated starter dataset reached state-of-the-art performance on multiple common vision tasks and benchmarks, despite having seen no benchmark or non-pipeline data. The depth estimation network outperforms MiDaS and the surface normal estimation network is the first to achieve human-level performance for in-the-wild surface normal estimation -- at least according to one metric on the OASIS benchmark. The Dockerized pipeline with CLI, the (mostly python) code, PyTorch dataloaders for the generated data, the generated starter dataset, download scripts and other utilities are available through our project website, https://omnidata.vision.
Abstract（参考訳）: 本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。サンプリングパラメータを変更することで、生成されたデータセットを"ステアリング"して、特定の情報を強調することができる。興味深い研究を可能にすることに加えて、ロバストなビジョンモデルをトレーニングするためのツールとデータsufficeも紹介する。生成されたスタータデータセットでトレーニングされた一般的なアーキテクチャは、ベンチマークやパイプラインデータがないにもかかわらず、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。深度推定ネットワークはMiDaSを上回り、表面正規推定ネットワークは、少なくともOASISベンチマークの1つの指標によると、Wild表面正規推定の人間レベルのパフォーマンスを初めて達成した。 CLIによるDocker化されたパイプライン、(大部分はpython)コード、生成されたデータのためのPyTorchデータローダ、生成されたスタータデータセット、ダウンロードスクリプト、その他のユーティリティは、プロジェクトのWebサイトであるhttps://omnidata.visionから入手可能です。

関連論文リスト

ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding [51.509115746992165]
我々はARKit LabelMakerを紹介した。これは、密集したセマンティックアノテーションを備えた、最初の大規模で現実世界の3Dデータセットである。また,3次元セマンティックセグメンテーションモデルを用いて,ScanNetおよびScanNet200データセットの最先端性能を推し進める。
論文参考訳（メタデータ） (2024-10-17T14:44:35Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。 BVSはシーンレベルで多数の調整可能なパラメータをサポートする。アプリケーションシナリオを3つ紹介する。
論文参考訳（メタデータ） (2024-05-15T17:57:56Z)
MASSTAR: A Multi-Modal and Large-Scale Scene Dataset with a Versatile Toolchain for Surface Prediction and Completion [25.44529512862336]
MASSTARはマルチモーダルなlArgeスケールのシーンデータセットであり、サーフAce predictionと完了のためのVerSatile Toolchainを備えている。環境から生の3Dデータを処理するための汎用的で効率的なツールチェーンを開発した。実世界の部分的なデータを含む1000以上のシーンレベルのモデルからなるサンプルデータセットを生成する。
論文参考訳（メタデータ） (2024-03-18T11:35:18Z)
Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving [34.368848580725576]
我々は,任意のシーンに対して,濃密で可視性に配慮したラベルを生成するラベル生成パイプラインを開発した。このパイプラインは、ボクセルの密度化、推論、画像誘導ボクセル精製の3段階からなる。我々は、Occ3Dベンチマークにおいて優れた性能を示すCTF-Occネットワークと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2023-04-27T17:40:08Z)
Swin3D: A Pretrained Transformer Backbone for 3D Indoor Scene Understanding [40.68012530554327]
室内3Dシーン理解のための3DバックボーンであるSSTを導入する。我々は,線形メモリの複雑さを伴うスパースボクセルの自己アテンションを効率的に行える3Dスウィントランスを,バックボーンネットワークとして設計する。我々のアプローチによって実現されたスケーラビリティ、汎用性、優れたパフォーマンスをさらに検証する大規模なアブレーション研究のシリーズである。
論文参考訳（メタデータ） (2023-04-14T02:49:08Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
Pushing the Limits of Simple Pipelines for Few-Shot Learning: External Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文参考訳（メタデータ） (2022-04-15T02:55:58Z)
THE Benchmark: Transferable Representation Learning for Monocular Height Estimation [25.872962101146115]
クロスデータセット設定における高さ推定モデルの転送可能性を検討するための新しいベンチマークデータセットを提案する。このベンチマークデータセットには、新しく提案された大規模合成データセット、新たに収集された実世界のデータセット、および異なる都市の既存の4つのデータセットが含まれている。本論文では、高さ推定タスクにおけるスケール変量問題に対処するウィンドウベース変換器を強化するためのスケール変形可能な畳み込みモジュールを提案する。
論文参考訳（メタデータ） (2021-12-30T09:40:26Z)
Open Graph Benchmark: Datasets for Machine Learning on Graphs [86.96887552203479]
スケーラブルで堅牢で再現可能なグラフ機械学習(ML)の研究を容易にするために,Open Graph Benchmark(OGB)を提案する。 OGBデータセットは大規模で、複数の重要なグラフMLタスクを含み、さまざまなドメインをカバーする。各データセットに対して,有意義なアプリケーション固有のデータ分割と評価指標を用いた統一評価プロトコルを提供する。
論文参考訳（メタデータ） (2020-05-02T03:09:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。