論文の概要: Toward Explainable and Fine-Grained 3D Grounding through Referring
Textual Phrases
- arxiv url: http://arxiv.org/abs/2207.01821v2
- Date: Sat, 27 May 2023 10:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 04:00:50.313420
- Title: Toward Explainable and Fine-Grained 3D Grounding through Referring
Textual Phrases
- Title(参考訳): テキスト句参照による3次元グラウンドの解説と細粒度化に向けて
- Authors: Zhihao Yuan, Xu Yan, Zhuo Li, Xuhao Li, Yao Guo, Shuguang Cui, Zhen Li
- Abstract要約: 3DPAGタスクは, 対象オブジェクトを3Dシーンでローカライズすることを目的として, 全てのフレーズ関連オブジェクトを明示的に識別し, 文脈的フレーズに従って推論を行う。
データセットをタップすることで、従来の3DVGメソッドを粒度の細かいフレーズ認識シナリオに拡張できます。
その結果,Nr3D,Sr3D,ScanReferの3.9%,3.5%,4.6%の精度向上が得られた。
- 参考スコア(独自算出の注目度): 35.18565109770112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in 3D scene understanding has explored visual grounding
(3DVG) to localize a target object through a language description. However,
existing methods only consider the dependency between the entire sentence and
the target object, ignoring fine-grained relationships between contexts and
non-target ones. In this paper, we extend 3DVG to a more fine-grained and
interpretable task, called 3D Phrase Aware Grounding (3DPAG). The 3DPAG task
aims to localize the target objects in a 3D scene by explicitly identifying all
phrase-related objects and then conducting the reasoning according to
contextual phrases. To tackle this problem, we manually labeled about 227K
phrase-level annotations using a self-developed platform, from 88K sentences of
widely used 3DVG datasets, i.e., Nr3D, Sr3D and ScanRefer. By tapping on our
datasets, we can extend previous 3DVG methods to the fine-grained phrase-aware
scenario. It is achieved through the proposed novel phrase-object alignment
optimization and phrase-specific pre-training, boosting conventional 3DVG
performance as well. Extensive results confirm significant improvements, i.e.,
previous state-of-the-art method achieves 3.9%, 3.5% and 4.6% overall accuracy
gains on Nr3D, Sr3D and ScanRefer respectively.
- Abstract(参考訳): 最近の3Dシーン理解の進歩は、言語記述による対象物体のローカライズのための視覚的接地(3DVG)を探求している。
しかし、既存の手法では、文全体と対象オブジェクト間の依存性のみを考慮し、コンテキストと非ターゲットオブジェクト間のきめ細かい関係を無視している。
本稿では,3Dプラーゼ・アウェア・グラウンドリング(DPAG)と呼ばれる,よりきめ細やかで解釈可能なタスクに3DVGを拡張する。
3DPAGタスクは、すべてのフレーズ関連オブジェクトを明示的に識別し、文脈的フレーズに従って推論を行うことにより、ターゲットオブジェクトを3Dシーンでローカライズすることを目的としている。
この問題に対処するために,Nr3D,Sr3D,ScanReferなど,広く使用されている3DVGデータセットの88K文から,自己開発プラットフォームを用いて約227Kのフレーズレベルのアノテーションを手作業でラベル付けした。
データセットをタップすることで、以前の3dvgメソッドをきめ細かいフレーズ認識シナリオに拡張できます。
提案したフレーズオブジェクトアライメント最適化とフレーズ固有の事前学習により,従来の3DVG性能も向上する。
その結果,Nr3D,Sr3D,ScanReferの3.9%,3.5%,4.6%の精度向上が得られた。
関連論文リスト
- A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions [27.469346807311574]
テキスト誘導型3D視覚接地(T-3DVG)は、複雑な3Dシーンからの言語クエリに対応する特定のオブジェクトを見つけることを目的としている。
データ収集と3Dポイント・クラウド・ソース・プロセッシングの複雑さから、2Dビジュアル・グラウンドと比較すると、このタスクは現実世界に近づき、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-06-09T13:52:12Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Object2Scene: Putting Objects in Context for Open-Vocabulary 3D
Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。
従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。
本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文 参考訳(メタデータ) (2023-09-18T03:31:53Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly
Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。
弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。
オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文 参考訳(メタデータ) (2023-07-18T13:49:49Z) - ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved
Visio-Linguistic Models in 3D Scenes [48.65360357173095]
ScanEnts3D(ScanEnts3D)データセットは、84kの自然参照文にわたる369kオブジェクト間の明示的な対応を提供する。
この新たなデータセットから学習できる直感的な損失を取り入れることで、最近導入されたニューラルリスニングアーキテクチャの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-12-12T21:25:58Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。