論文の概要: VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model
Research
- arxiv url: http://arxiv.org/abs/2402.19059v2
- Date: Tue, 5 Mar 2024 07:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 11:46:49.469484
- Title: VEnvision3D: A Synthetic Perception Dataset for 3D Multi-Task Model
Research
- Title(参考訳): VEnvision3D:3次元マルチタスクモデル研究のための合成知覚データセット
- Authors: Jiahao Zhou, Chen Long, Yue Xie, Jialiang Wang, Boheng Li, Haiping
Wang, Zhe Chen, Zhen Dong
- Abstract要約: VEnvision3Dは、マルチタスク学習のための大規模な3D合成知覚データセットである。
サブタスクは、使用データの観点から本質的に整列している。
私たちのデータセットとコードは、受け入れ次第オープンソースになります。
- 参考スコア(独自算出の注目度): 10.764333144509571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing a unified multi-task foundation model has become a critical
challenge in computer vision research. In the current field of 3D computer
vision, most datasets only focus on single task, which complicates the
concurrent training requirements of various downstream tasks. In this paper, we
introduce VEnvision3D, a large 3D synthetic perception dataset for multi-task
learning, including depth completion, segmentation, upsampling, place
recognition, and 3D reconstruction. Since the data for each task is collected
in the same environmental domain, sub-tasks are inherently aligned in terms of
the utilized data. Therefore, such a unique attribute can assist in exploring
the potential for the multi-task model and even the foundation model without
separate training methods. Meanwhile, capitalizing on the advantage of virtual
environments being freely editable, we implement some novel settings such as
simulating temporal changes in the environment and sampling point clouds on
model surfaces. These characteristics enable us to present several new
benchmarks. We also perform extensive studies on multi-task end-to-end models,
revealing new observations, challenges, and opportunities for future research.
Our dataset and code will be open-sourced upon acceptance.
- Abstract(参考訳): 統一マルチタスク基盤モデルの開発は、コンピュータビジョン研究において重要な課題となっている。
現在の3Dコンピュータビジョンの分野では、ほとんどのデータセットは単一のタスクのみに焦点を当てており、様々な下流タスクの同時トレーニング要求を複雑にしている。
本稿では,深度補完,セグメンテーション,アップサンプリング,位置認識,3D再構成を含む多タスク学習のための大規模3次元合成認識データセットであるVEnvision3Dを紹介する。
タスク毎のデータは同じ環境領域に収集されるため、サブタスクは使用データの観点から本質的に整列される。
したがって、そのようなユニークな属性は、個別の訓練方法なしでマルチタスクモデルや基礎モデルの可能性を探るのに役立つ。
一方,仮想環境を自由に編集できるという利点を生かして,環境の時間変化をシミュレートし,モデル表面上の点雲をサンプリングするなど,新たな設定を実装した。
これらの特徴により、いくつかの新しいベンチマークを提示できる。
また,マルチタスクのエンド・ツー・エンドモデルに関する広範な研究を行い,今後の研究の展望,課題,機会を明らかにする。
私たちのデータセットとコードは、受け入れ次第オープンソースになります。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection,
Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。
i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。
新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文 参考訳(メタデータ) (2023-04-03T13:41:35Z) - Multi-task learning from fixed-wing UAV images for 2D/3D city modeling [0.0]
マルチタスク学習(Multi-task learning)は、トレーニングデータに制限のある複数のタスクを含むシーン理解のアプローチである。
インフラ開発、交通監視、スマート3D都市、変更検出などの都市管理アプリケーションでは、自動マルチタスクデータ分析が必要である。
本研究では,2D/3D都市モデリングのための固定翼UAV画像を用いたマルチタスク学習手法の性能評価のための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T14:45:42Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。