論文の概要: Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions
- arxiv url: http://arxiv.org/abs/2507.14555v1
- Date: Sat, 19 Jul 2025 09:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.942443
- Title: Descrip3D: Enhancing Large Language Model-based 3D Scene Understanding with Object-Level Text Descriptions
- Title(参考訳): Descrip3D:オブジェクトレベルテキスト記述による大規模言語モデルに基づく3Dシーン理解の強化
- Authors: Jintang Xue, Ganning Zhao, Jie-En Yao, Hong-En Chen, Yue Hu, Meida Chen, Suya You, C. -C. Jay Kuo,
- Abstract要約: Descrip3Dは自然言語を使ってオブジェクト間の関係を明示的にエンコードする新しいフレームワークである。
グラウンド、キャプション、質問応答など、さまざまなタスクを統一した推論を可能にする。
- 参考スコア(独自算出の注目度): 28.185661905201222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding 3D scenes goes beyond simply recognizing objects; it requires reasoning about the spatial and semantic relationships between them. Current 3D scene-language models often struggle with this relational understanding, particularly when visual embeddings alone do not adequately convey the roles and interactions of objects. In this paper, we introduce Descrip3D, a novel and powerful framework that explicitly encodes the relationships between objects using natural language. Unlike previous methods that rely only on 2D and 3D embeddings, Descrip3D enhances each object with a textual description that captures both its intrinsic attributes and contextual relationships. These relational cues are incorporated into the model through a dual-level integration: embedding fusion and prompt-level injection. This allows for unified reasoning across various tasks such as grounding, captioning, and question answering, all without the need for task-specific heads or additional supervision. When evaluated on five benchmark datasets, including ScanRefer, Multi3DRefer, ScanQA, SQA3D, and Scan2Cap, Descrip3D consistently outperforms strong baseline models, demonstrating the effectiveness of language-guided relational representation for understanding complex indoor scenes.
- Abstract(参考訳): 3Dシーンを理解することは、単に物体を認識するだけでなく、それらの間の空間的および意味的な関係を推論する必要がある。
現在の3Dシーン言語モデルは、特に視覚的な埋め込みだけでは、オブジェクトの役割や相互作用を適切に伝えていない場合、この関係理解に苦慮することが多い。
本稿では,自然言語を用いたオブジェクト間の関係を明示的にエンコードする,斬新で強力なフレームワークであるDescrip3Dを紹介する。
2Dと3Dの埋め込みにのみ依存する従来の方法とは異なり、Descrip3Dは本質的な属性と文脈的関係の両方をキャプチャするテキスト記述で各オブジェクトを強化する。
これらのリレーショナルキューは、融合と即時レベルの注入という二重レベル統合を通じてモデルに組み込まれる。
これにより、グラウンド、キャプション、質問応答といった様々なタスクを統一した推論が可能となり、タスク固有のヘッドや追加の監督が不要になる。
ScanRefer、Multi3DRefer、ScanQA、SQA3D、Scan2Capを含む5つのベンチマークデータセットで評価された場合、Descrip3Dは、複雑な屋内シーンを理解するための言語誘導リレーショナル表現の有効性を実証し、一貫して強力なベースラインモデルを上回っている。
関連論文リスト
- AS3D: 2D-Assisted Cross-Modal Understanding with Semantic-Spatial Scene Graphs for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。
本稿では,関係認識のためのオブジェクト識別を伴う意味空間のシーングラフを構築する2次元視覚的グラウンドティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-07T02:02:15Z) - 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding [0.5755004576310334]
3Dシーングラフは、存在しているオブジェクトとそれらの間の意味的関係の両方をキャプチャすることで、コンパクトなシーンモデルを表現する。
本研究では,意味関係を明示的に組み込んだ3Dシーングラフの学習可能な表現構築手法である3DGraphLLMを提案する。
論文 参考訳(メタデータ) (2024-12-24T14:21:58Z) - 3D Scene Graph Guided Vision-Language Pre-training [11.131667398927394]
3次元視覚言語推論(VL)は、3次元物理世界を自然言語記述で橋渡しする可能性から注目されている。
既存のアプローチは通常、タスク固有の高度に専門化されたパラダイムに従う。
本稿では,3次元シーングラフ誘導型視覚言語事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T16:10:44Z) - Functionality understanding and segmentation in 3D scenes [6.1744362771344]
Fun3DUは、3Dシーンで機能を理解するために設計された最初のアプローチである。
Fun3DUは言語モデルを使用して、Chain-of-Thought推論を通じてタスク記述を解析する。
我々はFun3DUをSceneFun3D上で評価する。
論文 参考訳(メタデータ) (2024-11-25T11:57:48Z) - Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトによるセグメンテーションを推論するための3次元推論セグメンテーションタスクを提案する。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,複数のオブジェクトのクエリを扱う新しい3D推論ネットワークMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。