Fugu-MT 論文翻訳(概要): Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases

論文の概要: Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases

arxiv url: http://arxiv.org/abs/2207.01821v2
Date: Sat, 27 May 2023 10:03:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 04:00:50.313420
Title: Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases
Title（参考訳）: テキスト句参照による3次元グラウンドの解説と細粒度化に向けて
Authors: Zhihao Yuan, Xu Yan, Zhuo Li, Xuhao Li, Yao Guo, Shuguang Cui, Zhen Li
Abstract要約: 3DPAGタスクは, 対象オブジェクトを3Dシーンでローカライズすることを目的として, 全てのフレーズ関連オブジェクトを明示的に識別し, 文脈的フレーズに従って推論を行う。データセットをタップすることで、従来の3DVGメソッドを粒度の細かいフレーズ認識シナリオに拡張できます。その結果,Nr3D,Sr3D,ScanReferの3.9%,3.5%,4.6%の精度向上が得られた。
参考スコア（独自算出の注目度）: 35.18565109770112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent progress in 3D scene understanding has explored visual grounding (3DVG) to localize a target object through a language description. However, existing methods only consider the dependency between the entire sentence and the target object, ignoring fine-grained relationships between contexts and non-target ones. In this paper, we extend 3DVG to a more fine-grained and interpretable task, called 3D Phrase Aware Grounding (3DPAG). The 3DPAG task aims to localize the target objects in a 3D scene by explicitly identifying all phrase-related objects and then conducting the reasoning according to contextual phrases. To tackle this problem, we manually labeled about 227K phrase-level annotations using a self-developed platform, from 88K sentences of widely used 3DVG datasets, i.e., Nr3D, Sr3D and ScanRefer. By tapping on our datasets, we can extend previous 3DVG methods to the fine-grained phrase-aware scenario. It is achieved through the proposed novel phrase-object alignment optimization and phrase-specific pre-training, boosting conventional 3DVG performance as well. Extensive results confirm significant improvements, i.e., previous state-of-the-art method achieves 3.9%, 3.5% and 4.6% overall accuracy gains on Nr3D, Sr3D and ScanRefer respectively.
Abstract（参考訳）: 最近の3Dシーン理解の進歩は、言語記述による対象物体のローカライズのための視覚的接地(3DVG)を探求している。しかし、既存の手法では、文全体と対象オブジェクト間の依存性のみを考慮し、コンテキストと非ターゲットオブジェクト間のきめ細かい関係を無視している。本稿では,3Dプラーゼ・アウェア・グラウンドリング(DPAG)と呼ばれる,よりきめ細やかで解釈可能なタスクに3DVGを拡張する。 3DPAGタスクは、すべてのフレーズ関連オブジェクトを明示的に識別し、文脈的フレーズに従って推論を行うことにより、ターゲットオブジェクトを3Dシーンでローカライズすることを目的としている。この問題に対処するために,Nr3D,Sr3D,ScanReferなど,広く使用されている3DVGデータセットの88K文から,自己開発プラットフォームを用いて約227Kのフレーズレベルのアノテーションを手作業でラベル付けした。データセットをタップすることで、以前の3dvgメソッドをきめ細かいフレーズ認識シナリオに拡張できます。提案したフレーズオブジェクトアライメント最適化とフレーズ固有の事前学習により,従来の3DVG性能も向上する。その結果,Nr3D,Sr3D,ScanReferの3.9%,3.5%,4.6%の精度向上が得られた。

関連論文リスト

Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文参考訳（メタデータ） (2025-05-30T16:06:32Z)
Ges3ViG: Incorporating Pointing Gestures into Language-Based 3D Visual Grounding for Embodied Reference Understanding [5.568166420745467]
3次元身体的参照理解(3D-ERU)は、言語記述と付随するポインティングジェスチャーを組み合わせて、3Dシーンにおいて最も関連性の高い対象物を特定する。データ拡張フレームワーク-Imputerを導入し、新しいベンチマークデータセット-ImputeRefer for 3D-ERUをキュレートする。また,他の3D-ERUモデルと比較して30%の精度向上を実現し,他の純粋言語ベースの3Dグラウンドモデルと比較して9%の精度向上を実現した3D-ERUの新しいモデルGes3ViGを提案する。
論文参考訳（メタデータ） (2025-04-13T15:43:06Z)
AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。 AugReferは3次元視覚的接地を前進させる新しい手法である。
論文参考訳（メタデータ） (2025-01-16T09:57:40Z)
ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding [9.289977174410824]
3Dビジュアルグラウンドティングは、自然言語テキストによって参照される3Dシーンでエンティティをローカライズする。多様な言語パターンに対して視覚的接地手法を評価するための診断データセットである3D (ViGiL3D) の視覚的接地について紹介する。
論文参考訳（メタデータ） (2025-01-02T17:20:41Z)
SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.81711535075112]
3Dビジュアルグラウンディングは、テキスト記述に基づいて3Dシーン内のオブジェクトを見つけることを目的としている。大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。本稿では,クエリ関連画像レンダリングの視点を動的に選択するパースペクティブ適応モジュールと,2次元画像と3次元空間記述を統合するFusion Alignmentモジュールの2つのモジュールを提案する。
論文参考訳（メタデータ） (2024-12-05T17:58:43Z)
A Survey on Text-guided 3D Visual Grounding: Elements, Recent Advances, and Future Directions [27.469346807311574]
テキスト誘導型3D視覚接地(T-3DVG)は、複雑な3Dシーンからの言語クエリに対応する特定のオブジェクトを見つけることを目的としている。データ収集と3Dポイント・クラウド・ソース・プロセッシングの複雑さから、2Dビジュアル・グラウンドと比較すると、このタスクは現実世界に近づき、大きな可能性を秘めている。
論文参考訳（メタデータ） (2024-06-09T13:52:12Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文参考訳（メタデータ） (2023-12-15T09:08:14Z)
Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文参考訳（メタデータ） (2023-12-12T18:57:25Z)
Object2Scene: Putting Objects in Context for Open-Vocabulary 3D Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文参考訳（メタデータ） (2023-09-18T03:31:53Z)
3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。 3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T09:33:25Z)
Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドリングは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。弱教師付きアノテーションを利用して3次元視覚的接地モデルを学ぶことを提案する。オブジェクトの提案と文のセマンティックな類似性を粗大な方法で解析する新しいセマンティックマッチングモデルを設計する。
論文参考訳（メタデータ） (2023-07-18T13:49:49Z)
ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes [48.65360357173095]
ScanEnts3D(ScanEnts3D)データセットは、84kの自然参照文にわたる369kオブジェクト間の明示的な対応を提供する。この新たなデータセットから学習できる直感的な損失を取り入れることで、最近導入されたニューラルリスニングアーキテクチャの性能を大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-12-12T21:25:58Z)
CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。 3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文参考訳（メタデータ） (2022-09-13T05:26:09Z)
Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文参考訳（メタデータ） (2022-03-25T00:20:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。