論文の概要: Structured Interfaces for Automated Reasoning with 3D Scene Graphs
- arxiv url: http://arxiv.org/abs/2510.16643v1
- Date: Sat, 18 Oct 2025 21:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.077749
- Title: Structured Interfaces for Automated Reasoning with 3D Scene Graphs
- Title(参考訳): 3次元シーングラフを用いた自動推論のための構造化インタフェース
- Authors: Aaron Ray, Jacob Arkin, Harel Biggie, Chuchu Fan, Luca Carlone, Nicholas Roy,
- Abstract要約: 大規模言語モデル(LLMs)と3Dシーングラフ(DSGs)は、自然言語を基盤にして世界を表現するための一般的な選択肢となっている。
本稿では,そのタスクに関連する3DSGのサブセットを選択するためにRetrieval Augmented Generationという形式を提案する。
我々は,Cypherを3次元シーングラフのインターフェースとして使用することにより,ローカルモデルとクラウドモデルの両方において,大規模でリッチなグラフよりも大幅にスケール可能であることを示す。
- 参考スコア(独自算出の注目度): 33.67975348323554
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In order to provide a robot with the ability to understand and react to a user's natural language inputs, the natural language must be connected to the robot's underlying representations of the world. Recently, large language models (LLMs) and 3D scene graphs (3DSGs) have become a popular choice for grounding natural language and representing the world. In this work, we address the challenge of using LLMs with 3DSGs to ground natural language. Existing methods encode the scene graph as serialized text within the LLM's context window, but this encoding does not scale to large or rich 3DSGs. Instead, we propose to use a form of Retrieval Augmented Generation to select a subset of the 3DSG relevant to the task. We encode a 3DSG in a graph database and provide a query language interface (Cypher) as a tool to the LLM with which it can retrieve relevant data for language grounding. We evaluate our approach on instruction following and scene question-answering tasks and compare against baseline context window and code generation methods. Our results show that using Cypher as an interface to 3D scene graphs scales significantly better to large, rich graphs on both local and cloud-based models. This leads to large performance improvements in grounded language tasks while also substantially reducing the token count of the scene graph content. A video supplement is available at https://www.youtube.com/watch?v=zY_YI9giZSA.
- Abstract(参考訳): ユーザの自然言語入力を理解して反応する能力を持つロボットを提供するには、自然言語をロボットの根底にある世界表現に結びつける必要がある。
近年,大規模言語モデル (LLMs) と3次元シーングラフ (3DSGs) が,自然言語の接地と世界表現の一般的な選択肢となっている。
本研究では,LLMと3DSGを併用して自然言語処理を行うという課題に対処する。
既存の方法は、シーングラフをLCMのコンテキストウィンドウ内でシリアライズされたテキストとしてエンコードするが、このエンコーディングは大きな3DSGやリッチな3DSGにスケールしない。
そこで本研究では,Retrieval Augmented Generationという形式を用いて,タスクに関連する3DSGのサブセットを選択することを提案する。
我々は3DSGをグラフデータベースにエンコードし、LLMのツールとしてクエリ言語インタフェース(Cypher)を提供する。
本研究では,命令追従タスクとシーン質問応答タスクに対するアプローチを評価し,ベースラインコンテキストウィンドウとコード生成手法との比較を行った。
以上の結果から,Cypherを3次元シーングラフのインタフェースとして使用することで,ローカルモデルとクラウドモデルの両方において,大規模でリッチなグラフよりも大幅にスケールできることがわかった。
これにより、基底言語タスクのパフォーマンスが大幅に向上すると同時に、シーングラフの内容のトークン数が大幅に削減される。
ビデオサプリメントはhttps://www.youtube.com/watch?
v=zY_YI9giZSA。
関連論文リスト
- ReferSplat: Referring Segmentation in 3D Gaussian Splatting [60.73702075842278]
3次元ガウス散乱(R3DGS)を参照
Taskは、自然言語の記述に基づいて、ターゲットオブジェクトを3Dガウスシーンにセグメントすることを目的としている。
これらの課題に対処するため,自然言語表現を用いて3次元ガウス点を明示的にモデル化するフレームワークReferSplatを提案する。
論文 参考訳(メタデータ) (2025-08-11T17:59:30Z) - LangScene-X: Reconstruct Generalizable 3D Language-Embedded Scenes with TriMap Video Diffusion [21.828264119753502]
LangScene-Xは、3D一貫したマルチモダリティ情報を統一し、生成する新しい生成フレームワークである。
より一貫した新しい観察を創造する生成能力によって、我々はスパースビューのみから一般化可能な3D言語埋め込みシーンを構築することができる。
論文 参考訳(メタデータ) (2025-07-03T17:21:23Z) - GaussianVLM: Scene-centric 3D Vision-Language Models using Language-aligned Gaussian Splats for Embodied Reasoning and Beyond [56.677984098204696]
マルチモーダル言語モデルは、VLM(3D Vision-Language Models)の開発を推進している
本稿では,言語とタスク認識のシーン表現を用いた3次元ガウシアンスプラットシーンのためのシーン中心の3次元VLMを提案する。
本稿では,標準RGB画像から導出した光リアルな3D表現を利用した最初のガウススプラッティングに基づくVLMを提案する。
論文 参考訳(メタデータ) (2025-07-01T15:52:59Z) - Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。
セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。
同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2025-05-30T16:06:32Z) - 3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding [0.5755004576310334]
3Dシーングラフは、存在しているオブジェクトとそれらの間の意味的関係の両方をキャプチャすることで、コンパクトなシーンモデルを表現する。
本研究では,意味関係を明示的に組み込んだ3Dシーングラフの学習可能な表現構築手法である3DGraphLLMを提案する。
論文 参考訳(メタデータ) (2024-12-24T14:21:58Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language
Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。
LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。
以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-21T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。