論文の概要: B2N3D: Progressive Learning from Binary to N-ary Relationships for 3D Object Grounding
- arxiv url: http://arxiv.org/abs/2510.10194v1
- Date: Sat, 11 Oct 2025 12:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.835932
- Title: B2N3D: Progressive Learning from Binary to N-ary Relationships for 3D Object Grounding
- Title(参考訳): B2N3D:3次元物体の接地における二項関係からN項関係への進行学習
- Authors: Feng Xiao, Hongbin Xu, Hai Ci, Wenxiong Kang,
- Abstract要約: 本稿では,3次元オブジェクトのグラウンド化のための新しいプログレッシブリレーショナル学習フレームワークを提案する。
我々は、世界規模で参照記述に一致する視覚的関係を識別するために、バイナリからn-aryへの関係学習を拡張した。
n-ary関係で生成されたシーングラフでは、ターゲットをさらにローカライズするために、ハイブリッドアテンション機構を備えたマルチモーダルネットワークを使用する。
- 参考スコア(独自算出の注目度): 32.814585321361974
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Localizing 3D objects using natural language is essential for robotic scene understanding. The descriptions often involve multiple spatial relationships to distinguish similar objects, making 3D-language alignment difficult. Current methods only model relationships for pairwise objects, ignoring the global perceptual significance of n-ary combinations in multi-modal relational understanding. To address this, we propose a novel progressive relational learning framework for 3D object grounding. We extend relational learning from binary to n-ary to identify visual relations that match the referential description globally. Given the absence of specific annotations for referred objects in the training data, we design a grouped supervision loss to facilitate n-ary relational learning. In the scene graph created with n-ary relationships, we use a multi-modal network with hybrid attention mechanisms to further localize the target within the n-ary combinations. Experiments and ablation studies on the ReferIt3D and ScanRefer benchmarks demonstrate that our method outperforms the state-of-the-art, and proves the advantages of the n-ary relational perception in 3D localization.
- Abstract(参考訳): 自然言語を用いた3Dオブジェクトのローカライズはロボットシーン理解に不可欠である。
これらの記述は、しばしば類似した物体を区別するために複数の空間的関係を伴い、3D言語アライメントを困難にする。
現在の手法は、対対象に対する関係のみをモデル化し、マルチモーダルな関係理解におけるn-ary結合のグローバルな知覚的意義を無視している。
そこで本研究では,3次元オブジェクトグラウンド化のための新しい進化的リレーショナル学習フレームワークを提案する。
我々は、世界規模で参照記述に一致する視覚的関係を識別するために、バイナリからn-aryへの関係学習を拡張した。
トレーニングデータに参照対象の特定のアノテーションがないため、n-aryリレーショナル学習を容易にするためにグループ化された監視損失を設計する。
n-ary 関係で生成されたシーングラフでは,n-ary 組み合わせ内でターゲットをさらに局所化するために,ハイブリットアテンション機構を備えたマルチモーダルネットワークを用いる。
ReferIt3D と ScanRefer のベンチマーク実験およびアブレーション実験により,本手法が最先端技術より優れており,n-ary 関係認識の利点が3次元局所化において証明されている。
関連論文リスト
- Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions [28.185661905201222]
Descrip3Dは自然言語を使ってオブジェクト間の関係を明示的にエンコードする新しいフレームワークである。
グラウンド、キャプション、質問応答など、さまざまなタスクを統一した推論を可能にする。
論文 参考訳(メタデータ) (2025-07-19T09:19:16Z) - LSVG: Language-Guided Scene Graphs with 2D-Assisted Multi-Modal Encoding for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。
本稿では,言語誘導型シーングラフを参照オブジェクト識別で構築する新しい3次元ビジュアルグラウンドディングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-07T02:02:15Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - AugRefer: Advancing 3D Visual Grounding via Cross-Modal Augmentation and Spatial Relation-based Referring [49.78120051062641]
3Dビジュアルグラウンドティングは、自然言語記述と対象物とを3Dシーン内で関連付けることを目的としている。
既存のアプローチでは、トレーニング用に利用可能なテキスト3Dペアが不足しているのが一般的である。
AugReferは3次元視覚的接地を前進させる新しい手法である。
論文 参考訳(メタデータ) (2025-01-16T09:57:40Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。