論文の概要: 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2412.18450v3
- Date: Wed, 06 Aug 2025 06:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:07.728376
- Title: 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding
- Title(参考訳): 3DGraphLLM:3次元シーン理解のための意味グラフと大規模言語モデルを組み合わせる
- Authors: Tatiana Zemskova, Dmitry Yudin,
- Abstract要約: 3Dシーングラフは、存在しているオブジェクトとそれらの間の意味的関係の両方をキャプチャすることで、コンパクトなシーンモデルを表現する。
本研究では,意味関係を明示的に組み込んだ3Dシーングラフの学習可能な表現構築手法である3DGraphLLMを提案する。
- 参考スコア(独自算出の注目度): 0.5755004576310334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A 3D scene graph represents a compact scene model by capturing both the objects present and the semantic relationships between them, making it a promising structure for robotic applications. To effectively interact with users, an embodied intelligent agent should be able to answer a wide range of natural language queries about the surrounding 3D environment. Large Language Models (LLMs) are beneficial solutions for user-robot interaction due to their natural language understanding and reasoning abilities. Recent methods for learning scene representations have shown that adapting these representations to the 3D world can significantly improve the quality of LLM responses. However, existing methods typically rely only on geometric information, such as object coordinates, and overlook the rich semantic relationships between objects. In this work, we propose 3DGraphLLM, a method for constructing a learnable representation of a 3D scene graph that explicitly incorporates semantic relationships. This representation is used as input to LLMs for performing 3D vision-language tasks. In our experiments on popular ScanRefer, Multi3DRefer, ScanQA, Sqa3D, and Scan2cap datasets, we demonstrate that our approach outperforms baselines that do not leverage semantic relationships between objects. The code is publicly available at https://github.com/CognitiveAISystems/3DGraphLLM.
- Abstract(参考訳): 3次元シーングラフは、存在しているオブジェクトとそれらの間の意味的関係の両方をキャプチャしてコンパクトなシーンモデルを表しており、ロボットアプリケーションにとって有望な構造となっている。
ユーザと効果的に対話するためには、実装されたインテリジェントエージェントが周囲の3D環境に関する幅広い自然言語クエリに答えることができる必要がある。
大きな言語モデル(LLM)は、自然言語の理解と推論能力のため、ユーザとロボットのインタラクションに有益なソリューションである。
近年のシーン表現の学習手法では,これらの表現を3次元世界に適応させることで,LLM応答の質が著しく向上することが示されている。
しかし、既存の手法は通常、オブジェクト座標のような幾何学的な情報にのみ依存し、オブジェクト間のリッチなセマンティックな関係を見落としている。
本研究では,意味関係を明示的に組み込んだ3Dシーングラフの学習可能な表現構築手法である3DGraphLLMを提案する。
この表現は、3次元視覚言語タスクを実行するためのLLMへの入力として使用される。
一般的なScanRefer、Multi3DRefer、ScanQA、Sqa3D、Scan2capのデータセットに関する実験では、オブジェクト間のセマンティックな関係を利用しないベースラインよりも優れていることを示した。
コードはhttps://github.com/CognitiveAISystems/3DGraphLLMで公開されている。
関連論文リスト
- Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space [58.623106094568776]
3Dモデル(3DMM)は、オブジェクトカテゴリの形状や外観を表現する強力なツールである。
我々は,オブジェクト中心ビデオのコレクションから,オブジェクトの3DMMを自己管理的に学習する新しい手法であるCommon3Dを導入する。
Common3Dは、様々な視覚タスクをゼロショットで解くことができる最初の完全に自己教師された方法である。
論文 参考訳(メタデータ) (2025-04-30T15:42:23Z) - Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces [113.91791599146786]
本稿では,RGB-D画像から実世界の屋内環境の3次元シーングラフを推定するタスクを紹介する。
オブジェクトの空間的関係に焦点を当てた従来の3Dシーングラフとは異なり、機能的な3Dシーングラフはオブジェクト、インタラクティブな要素、およびそれらの機能的関係をキャプチャする。
我々は,拡張されたSceneFun3Dデータセットと新たに収集されたFunGraph3Dに対して,機能的な3Dシーングラフを付加したアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-24T22:53:19Z) - Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph [0.3926357402982764]
本稿では,メカニカルエッジとセマンティックエッジを用いた3次元シーングラフ表現を構築するBBQというモジュラーアプローチを提案する。
BBQは、3Dオブジェクト中心のマップを構築するために、堅牢なDINO対応のアソシエーションを使用している。
BBQは,他のゼロショット法と比較して,オープンな3次元セマンティックセマンティックセマンティックセグメンテーションにおいて中心的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:57:04Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。
Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。
提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-04-30T02:48:20Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。