論文の概要: Data-Efficient 3D Visual Grounding via Order-Aware Referring
- arxiv url: http://arxiv.org/abs/2403.16539v3
- Date: Fri, 31 May 2024 08:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 19:33:06.342294
- Title: Data-Efficient 3D Visual Grounding via Order-Aware Referring
- Title(参考訳): 順序認識参照によるデータ効率のよい3次元視覚グラウンド
- Authors: Tung-Yu Wu, Sheng-Yu Huang, Yu-Chiang Frank Wang,
- Abstract要約: 3Dビジュアルグラウンドティングは、自然言語記述によって参照される3Dポイントクラウドシーン内でターゲットオブジェクトを特定することを目的としている。
我々は、注文認識参照を介して、新しいデータ効率のよい3DビジュアルグラウンドフレームワークであるVigorを紹介した。
- 参考スコア(独自算出の注目度): 31.96736077210907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D visual grounding aims to identify the target object within a 3D point cloud scene referred to by a natural language description. Previous works usually require significant data relating to point color and their descriptions to exploit the corresponding complicated verbo-visual relations. In our work, we introduce Vigor, a novel Data-Efficient 3D Visual Grounding framework via Order-aware Referring. Vigor leverages LLM to produce a desirable referential order from the input description for 3D visual grounding. With the proposed stacked object-referring blocks, the predicted anchor objects in the above order allow one to locate the target object progressively without supervision on the identities of anchor objects or exact relations between anchor/target objects. In addition, we present an order-aware warm-up training strategy, which augments referential orders for pre-training the visual grounding framework. This allows us to better capture the complex verbo-visual relations and benefit the desirable data-efficient learning scheme. Experimental results on the NR3D and ScanRefer datasets demonstrate our superiority in low-resource scenarios. In particular, Vigor surpasses current state-of-the-art frameworks by 9.3% and 7.6% grounding accuracy under 1% data and 10% data settings on the NR3D dataset, respectively.
- Abstract(参考訳): 3Dビジュアルグラウンドティングは、自然言語記述によって参照される3Dポイントクラウドシーン内でターゲットオブジェクトを特定することを目的としている。
以前の作品は、通常、それに対応する複雑な言語と視覚の関係を利用するために、点の色とその記述に関する重要なデータを必要とする。
本稿では,新しい3次元ビジュアルグラウンドフレームワークであるVigorについて紹介する。
Vigor は LLM を利用して3次元視覚グラウンドの入力記述から望ましい参照順序を生成する。
提案したスタック化されたオブジェクト参照ブロックにより、上記の順序で予測されたアンカーオブジェクトは、アンカーオブジェクトの同一性やアンカー/ターゲットオブジェクト間の正確な関係を監督することなく、ターゲットオブジェクトを徐々に特定できる。
さらに,視覚的接地フレームワークを事前訓練するための参照命令を付加する,注文対応ウォームアップトレーニング戦略を提案する。
これにより、複雑な言語と視覚の関係をよりよく把握し、望ましいデータ効率の学習手法の恩恵を受けることができる。
NR3DおよびScanReferデータセットの実験結果は、低リソースシナリオにおける我々の優位性を実証している。
特に、Vigorは現在の最先端フレームワークを9.3%上回り、7.6%の精度で、それぞれ1%のデータと10%のデータ設定をNR3Dデータセットで下支えしている。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - Free-form Description Guided 3D Visual Graph Network for Object
Grounding in Point Cloud [39.055928838826226]
3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。
豊かな構造と長距離句相関を捉えるための言語シーングラフモジュールを提案する。
次に,オブジェクト-オブジェクト間およびオブジェクト-シーン間共起関係を抽出するために,多レベル3次元提案関係グラフモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-30T14:22:36Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。