論文の概要: A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions
- arxiv url: http://arxiv.org/abs/2406.05785v2
- Date: Mon, 22 Jul 2024 03:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 01:11:44.576509
- Title: A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions
- Title(参考訳): テキスト誘導型3次元視覚接地に関する調査:要素,最近の進歩,今後の方向性
- Authors: Daizong Liu, Yang Liu, Wencan Huang, Wei Hu,
- Abstract要約: テキスト誘導型3D視覚接地(T-3DVG)は、複雑な3Dシーンからの言語クエリに対応する特定のオブジェクトを見つけることを目的としている。
データ収集と3Dポイント・クラウド・ソース・プロセッシングの複雑さから、2Dビジュアル・グラウンドと比較すると、このタスクは現実世界に近づき、大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 27.469346807311574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided 3D visual grounding (T-3DVG), which aims to locate a specific object that semantically corresponds to a language query from a complicated 3D scene, has drawn increasing attention in the 3D research community over the past few years. Compared to 2D visual grounding, this task presents great potential and challenges due to its closer proximity to the real world and the complexity of data collection and 3D point cloud source processing. In this survey, we attempt to provide a comprehensive overview of the T-3DVG progress, including its fundamental elements, recent research advances, and future research directions. To the best of our knowledge, this is the first systematic survey on the T-3DVG task. Specifically, we first provide a general structure of the T-3DVG pipeline with detailed components in a tutorial style, presenting a complete background overview. Then, we summarize the existing T-3DVG approaches into different categories and analyze their strengths and weaknesses. We also present the benchmark datasets and evaluation metrics to assess their performances. Finally, we discuss the potential limitations of existing T-3DVG and share some insights on several promising research directions. The latest papers are continually collected at https://github.com/liudaizong/Awesome-3D-Visual-Grounding.
- Abstract(参考訳): 複雑な3Dシーンからの言語クエリに対応する特定のオブジェクトを見つけることを目的としたテキスト誘導型3Dビジュアルグラウンドティング(T-3DVG)は,ここ数年で注目を集めている。
データ収集と3Dポイント・クラウド・ソース・プロセッシングの複雑さから、2Dビジュアル・グラウンドと比較すると、このタスクは現実世界に近づき、大きな可能性を秘めている。
本調査では,T-3DVGの進展,その基本要素,最近の研究動向,今後の研究方向性などを概観する。
我々の知る限りでは、これがT-3DVGタスクに関する最初の体系的な調査である。
具体的には、まずT-3DVGパイプラインの一般的な構成とチュートリアルスタイルの詳細なコンポーネントを提供し、完全な背景概要を提示する。
次に、既存のT-3DVGアプローチを異なるカテゴリにまとめ、その長所と短所を解析する。
また、ベンチマークデータセットと評価指標を提示し、その性能を評価する。
最後に、既存のT-3DVGの潜在的な限界について議論し、いくつかの有望な研究方向性についての洞察を共有する。
最新の論文はhttps://github.com/liudaizong/Awesome-3D-Visual-Grounding.comで継続的に収集されている。
関連論文リスト
- General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - A Comprehensive Survey on 3D Content Generation [148.434661725242]
3Dコンテンツ生成は学術的価値と実践的価値の両方を示している。
新しい分類法が提案され,既存のアプローチを3Dネイティブ生成法,2D先行3D生成法,ハイブリッド3D生成法という3つのタイプに分類する。
論文 参考訳(メタデータ) (2024-02-02T06:20:44Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans [6.936271803454143]
3Dシーンにおけるクロスデータセット視覚的グラウンド化のための新しいタスク(Cross3DVG)を提案する。
大規模な3DビジュアルグラウンドデータセットであるROOReferを作成しました。
3RScanの1,380の屋内RGB-Dスキャンで、63万以上の3Dオブジェクトが記述されている。
論文 参考訳(メタデータ) (2023-05-23T09:52:49Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Toward Explainable and Fine-Grained 3D Grounding through Referring
Textual Phrases [35.18565109770112]
3DPAGタスクは, 対象オブジェクトを3Dシーンでローカライズすることを目的として, 全てのフレーズ関連オブジェクトを明示的に識別し, 文脈的フレーズに従って推論を行う。
データセットをタップすることで、従来の3DVGメソッドを粒度の細かいフレーズ認識シナリオに拡張できます。
その結果,Nr3D,Sr3D,ScanReferの3.9%,3.5%,4.6%の精度向上が得られた。
論文 参考訳(メタデータ) (2022-07-05T05:50:12Z) - 3D Object Detection for Autonomous Driving: A Survey [14.772968858398043]
3次元物体検出は、そのような知覚システムの中核となる基礎となる。
既存の努力にもかかわらず、ポイントクラウド上の3Dオブジェクト検出はまだ初期段階にある。
近年, プロスとコンスを用いた最先端検出法が提案されている。
論文 参考訳(メタデータ) (2021-06-21T03:17:20Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - Semantic Correspondence via 2D-3D-2D Cycle [58.023058561837686]
本稿では,3次元領域に利用して意味的対応を予測するための新しい手法を提案する。
提案手法は,標準的なセマンティックベンチマークにおいて比較,さらに優れた結果を与えることを示す。
論文 参考訳(メタデータ) (2020-04-20T05:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。