論文の概要: DOrA: 3D Visual Grounding with Order-Aware Referring
- arxiv url: http://arxiv.org/abs/2403.16539v1
- Date: Mon, 25 Mar 2024 08:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 15:28:08.288199
- Title: DOrA: 3D Visual Grounding with Order-Aware Referring
- Title(参考訳): DOrA: オーダーアウェア参照による3次元視覚グラウンド
- Authors: Tung-Yu Wu, Sheng-Yu Huang, Yu-Chiang Frank Wang,
- Abstract要約: 3Dビジュアルグラウンドティングは、自然言語記述によって参照される3Dポイントクラウドシーン内でターゲットオブジェクトを特定することを目的としている。
本稿では,DOrAについて紹介する。DOrAは,オーダー・アウェアが参照する新しい3次元視覚基盤フレームワークである。
- 参考スコア(独自算出の注目度): 31.96736077210907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D visual grounding aims to identify the target object within a 3D point cloud scene referred to by a natural language description. While previous works attempt to exploit the verbo-visual relation with proposed cross-modal transformers, unstructured natural utterances and scattered objects might lead to undesirable performances. In this paper, we introduce DOrA, a novel 3D visual grounding framework with Order-Aware referring. DOrA is designed to leverage Large Language Models (LLMs) to parse language description, suggesting a referential order of anchor objects. Such ordered anchor objects allow DOrA to update visual features and locate the target object during the grounding process. Experimental results on the NR3D and ScanRefer datasets demonstrate our superiority in both low-resource and full-data scenarios. In particular, DOrA surpasses current state-of-the-art frameworks by 9.3% and 7.8% grounding accuracy under 1% data and 10% data settings, respectively.
- Abstract(参考訳): 3Dビジュアルグラウンドティングは、自然言語記述によって参照される3Dポイントクラウドシーン内でターゲットオブジェクトを特定することを目的としている。
従来の研究は、提案されたモーダル変換器との言語・視覚的関係を活用しようとするが、構造化されていない自然な発話と散在した物体は望ましくないパフォーマンスをもたらす可能性がある。
本稿では,DOrAについて紹介する。DOrAは,オーダー・アウェアが参照する新しい3次元視覚基盤フレームワークである。
DOrAは言語記述を解析するためにLLM(Large Language Models)を活用するように設計されており、アンカーオブジェクトの参照順序を示唆している。
このような順序付けられたアンカーオブジェクトにより、DOrAは視覚的特徴を更新し、接地プロセス中にターゲットオブジェクトを見つけることができる。
NR3DとScanReferのデータセットの実験結果は、低リソースとフルデータの両方のシナリオにおいて、私たちの優位性を示しています。
特に、DOrAは現在の最先端フレームワークを9.3%上回り、7.8%の精度で、それぞれ1%のデータ設定と10%のデータ設定に基づいている。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding [57.04804711488706]
3Dビジュアルグラウンドティングはロボットにとって不可欠であり、自然言語と3Dシーン理解を統合する必要がある。
VLM-Grounderは視覚言語モデル(VLM)を用いて2次元画像のみに基づくゼロショット3次元視覚グラウンドティングを行う新しいフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T17:59:55Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。