論文の概要: Relational Scene Graphs for Object Grounding of Natural Language Commands
- arxiv url: http://arxiv.org/abs/2602.04635v1
- Date: Wed, 04 Feb 2026 15:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.174562
- Title: Relational Scene Graphs for Object Grounding of Natural Language Commands
- Title(参考訳): 自然言語コマンドのオブジェクトグラウンド化のための関係シーングラフ
- Authors: Julia Kuhn, Francesco Verdoja, Tsvetomila Mihaylova, Ville Kyrki,
- Abstract要約: 本稿では,3DSGにオープンまたはクローズドな空間関係を組み込むことで,自然言語コマンドの解釈能力を向上させることができるかを検討する。
そこで本研究では,オープン語彙言語コマンドからターゲットオブジェクトをグラウンドグラウンド化するためのLLMベースのパイプラインと,オープン語彙空間エッジをマッピング中にキャプチャした画像から3DSGに付加するビジョン言語モデル(VLM)ベースのパイプラインを提案する。
- 参考スコア(独自算出の注目度): 3.873578776565377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots are finding wider adoption in human environments, increasing the need for natural human-robot interaction. However, understanding a natural language command requires the robot to infer the intended task and how to decompose it into executable actions, and to ground those actions in the robot's knowledge of the environment, including relevant objects, agents, and locations. This challenge can be addressed by combining the capabilities of Large language models (LLMs) to understand natural language with 3D scene graphs (3DSGs) for grounding inferred actions in a semantic representation of the environment. However, many 3DSGs lack explicit spatial relations between objects, even though humans often rely on these relations to describe an environment. This paper investigates whether incorporating open- or closed-vocabulary spatial relations into 3DSGs can improve the ability of LLMs to interpret natural language commands. To address this, we propose an LLM-based pipeline for target object grounding from open-vocabulary language commands and a vision language model (VLM)-based pipeline to add open-vocabulary spatial edges to 3DSGs from images captured while mapping. Finally, two LLMs are evaluated in a study assessing their performance on the downstream task of target object grounding. Our study demonstrates that explicit spatial relations improve the ability of LLMs to ground objects. Moreover, open-vocabulary relation generation with VLMs proves feasible from robot-captured images, but their advantage over closed-vocabulary relations is found to be limited.
- Abstract(参考訳): ロボットは人間の環境において広く採用されており、自然とロボットの相互作用の必要性が高まっている。
しかし、自然言語コマンドを理解するには、ロボットが意図したタスクを推論し、それを実行可能なアクションに分解し、関連するオブジェクト、エージェント、場所を含む、ロボットの環境知識にそれらのアクションを埋め込む必要がある。
この課題は、自然言語を3Dシーングラフ(3DSG)で理解するLarge Language Model(LLM)の機能を組み合わせることで、環境の意味表現における推論されたアクションのグラウンド化に対処することができる。
しかしながら、多くの3DSGは、人間が環境を記述するためにこれらの関係に依存しているにもかかわらず、オブジェクト間の空間的関係を明示的に欠いている。
本稿では,3DSGにオープン・ボキャブラリ空間関係を組み込むことで,LLMが自然言語コマンドを解釈できるかどうかを検討する。
そこで本研究では,オープン語彙言語コマンドからターゲットオブジェクトをグラウンドグラウンド化するためのLLMベースのパイプラインと,オープン語彙空間エッジをマッピング中にキャプチャした画像から3DSGに付加するビジョン言語モデル(VLM)ベースのパイプラインを提案する。
最後に,2つのLLMを対象物接地における下流作業における性能評価実験で評価した。
本研究は, 空間的関係がLLMの地上物体への適用性を向上させることを示すものである。
さらに,VLMを用いたオープン語彙関係生成は,ロボットが捉えた画像から実現可能であるが,クローズド語彙関係に対する優位性は限定的である。
関連論文リスト
- Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning [10.364779390403337]
本稿では,複数の抽象化レベルにまたがるオープン語彙機能を統合し,オブジェクト-リレーショナル推論をサポートする階層型3Dシーングラフを提案する。
本稿では,Large Language Models(LLM)とVLM(Vision Language Model)を組み合わせて,シーングラフのセマンティックおよびリレーショナル情報を解釈するタスク推論モジュールを提案する。
我々は,複数の環境やタスクにおいて,四足歩行ロボットに配置することで,その方法を検証する。
論文 参考訳(メタデータ) (2026-02-02T18:47:02Z) - Words into World: A Task-Adaptive Agent for Language-Guided Spatial Retrieval in AR [8.295391485284298]
マルチモーダル大規模言語モデル(MLLM)と接地型視覚モデルを統合するモジュール型拡張現実(AR)エージェントシステムを提案する。
適応タスクエージェントはMLLMと座標認識ツールを協調して,クエリの複雑さに対処する。
このシステムは、人間のループ内改良を支援しながら、情報密度領域に人間の注意を誘導する。
論文 参考訳(メタデータ) (2025-11-29T03:29:15Z) - A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。
既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。
本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:20:38Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language
Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。
LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。
以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-21T17:59:45Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。