論文の概要: WHU-Synthetic: A Synthetic Perception Dataset for 3-D Multitask Model Research
- arxiv url: http://arxiv.org/abs/2402.19059v3
- Date: Sat, 29 Mar 2025 01:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:29:53.271076
- Title: WHU-Synthetic: A Synthetic Perception Dataset for 3-D Multitask Model Research
- Title(参考訳): WHU合成:3次元マルチタスクモデル研究のための合成知覚データセット
- Authors: Jiahao Zhou, Chen Long, Yue Xie, Jialiang Wang, Conglang Zhang, Boheng Li, Haiping Wang, Zhe Chen, Zhen Dong,
- Abstract要約: WHU-Syntheticは、マルチタスク学習用に設計された大規模3D合成認識データセットである。
我々は,現実のシナリオにおいて実現が困難である特定のアイデアを実現するために,いくつかの新しい設定を実装している。
- 参考スコア(独自算出の注目度): 9.945833036861892
- License:
- Abstract: End-to-end models capable of handling multiple sub-tasks in parallel have become a new trend, thereby presenting significant challenges and opportunities for the integration of multiple tasks within the domain of 3D vision. The limitations of 3D data acquisition conditions have not only restricted the exploration of many innovative research problems but have also caused existing 3D datasets to predominantly focus on single tasks. This has resulted in a lack of systematic approaches and theoretical frameworks for 3D multi-task learning, with most efforts merely serving as auxiliary support to the primary task. In this paper, we introduce WHU-Synthetic, a large-scale 3D synthetic perception dataset designed for multi-task learning, from the initial data augmentation (upsampling and depth completion), through scene understanding (segmentation), to macro-level tasks (place recognition and 3D reconstruction). Collected in the same environmental domain, we ensure inherent alignment across sub-tasks to construct multi-task models without separate training methods. Besides, we implement several novel settings, making it possible to realize certain ideas that are difficult to achieve in real-world scenarios. This supports more adaptive and robust multi-task perception tasks, such as sampling on city-level models, providing point clouds with different densities, and simulating temporal changes. Using our dataset, we conduct several experiments to investigate mutual benefits between sub-tasks, revealing new observations, challenges, and opportunities for future research. The dataset is accessible at https://github.com/WHU-USI3DV/WHU-Synthetic.
- Abstract(参考訳): 複数のサブタスクを並列に処理できるエンドツーエンドモデルは、新しいトレンドとなり、3Dビジョンの領域内で複数のタスクを統合するための大きな課題と機会が提示される。
3Dデータ取得条件の制限は、多くの革新的な研究問題の探索を制限するだけでなく、既存の3Dデータセットが主に単一タスクに集中する原因となった。
この結果、3次元マルチタスク学習のための体系的なアプローチや理論的な枠組みが欠如しており、ほとんどの取り組みは、主要なタスクへの補助的な支援として機能している。
本稿では,WHU-Syntheticについて述べる。WHU-Syntheticはマルチタスク学習用に設計された大規模3次元合成認識データセットであり,初期データ拡張(アップサンプリングと深度補完),シーン理解(セグメンテーション),マクロレベルのタスク(位置認識と3D再構成)などである。
同じ環境領域で収集され,個別の学習手法を使わずにマルチタスクモデルを構築するために,サブタスク間で固有のアライメントを確保する。
さらに,現実のシナリオでは実現が困難である特定のアイデアを実現するために,いくつかの新しい設定を実装している。
これは、都市レベルのモデルのサンプリング、異なる密度の点雲の提供、時間的変化のシミュレーションなど、より適応的で堅牢なマルチタスク認識タスクをサポートする。
このデータセットを用いて,サブタスク間の相互利益を調査し,新たな観察,課題,今後の研究機会を明らかにする。
データセットはhttps://github.com/WHU-USI3DV/WHU-Syntheticでアクセスできる。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Joint 2D-3D Multi-Task Learning on Cityscapes-3D: 3D Detection,
Segmentation, and Depth Estimation [11.608682595506354]
TaskPrompterは革新的なマルチタスクプロンプトフレームワークを提供する。
i)タスク・ジェネリックな表現、ii)タスク固有の表現、iii)タスク間の相互作用の学習を統一する。
新しいベンチマークでは、モノクロ3D車両の検出、セマンティックセグメンテーション、モノクロ深度推定の予測を同時に生成するためにマルチタスクモデルが必要である。
論文 参考訳(メタデータ) (2023-04-03T13:41:35Z) - Multi-task learning from fixed-wing UAV images for 2D/3D city modeling [0.0]
マルチタスク学習(Multi-task learning)は、トレーニングデータに制限のある複数のタスクを含むシーン理解のアプローチである。
インフラ開発、交通監視、スマート3D都市、変更検出などの都市管理アプリケーションでは、自動マルチタスクデータ分析が必要である。
本研究では,2D/3D都市モデリングのための固定翼UAV画像を用いたマルチタスク学習手法の性能評価のための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T14:45:42Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。