論文の概要: SG-CoT: An Ambiguity-Aware Robotic Planning Framework using Scene Graph Representations
- arxiv url: http://arxiv.org/abs/2603.18271v2
- Date: Fri, 20 Mar 2026 01:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 13:01:03.841442
- Title: SG-CoT: An Ambiguity-Aware Robotic Planning Framework using Scene Graph Representations
- Title(参考訳): SG-CoT:シーングラフ表現を用いたあいまいさを考慮したロボット計画フレームワーク
- Authors: Akshat Rana, Peeyush Agarwal, K. P. S. Rana, Amarjit Malhotra,
- Abstract要約: ロボットプランナーとして使用される大規模言語モデル(LLM)には、あいまいさが大きな課題となっている。
SG-CoT(Scene Graph-Chain-of-Thought)は、LLMが環境のシーングラフ表現を反復的にクエリしてあいまいさを検出し、明確化する2段階のフレームワークである。
- 参考スコア(独自算出の注目度): 0.6299766708197883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ambiguity poses a major challenge to large language models (LLMs) used as robotic planners. In this letter, we present Scene Graph-Chain-of-Thought (SG-CoT), a two-stage framework where LLMs iteratively query a scene graph representation of the environment to detect and clarify ambiguities. First, a structured scene graph representation of the environment is constructed from input observations, capturing objects, their attributes, and relationships with other objects. Second, the LLM is equipped with retrieval functions to query portions of the scene graph that are relevant to the provided instruction. This grounds the reasoning process of the LLM in the observation, increasing the reliability of robotic planners under ambiguous situations. SG-CoT also allows the LLM to identify the source of ambiguity and pose a relevant disambiguation question to the user or another robot. Extensive experimentation demonstrates that SG-CoT consistently outperforms prior methods, with a minimum of 10% improvement in question accuracy and a minimum success rate increase of 4% in single-agent and 15% in multi-agent environments, validating its effectiveness for more generalizable robot planning.
- Abstract(参考訳): ロボットプランナーとして使用される大規模言語モデル(LLM)には、あいまいさが大きな課題となっている。
本稿では、LLMが環境のシーングラフ表現を反復的にクエリしてあいまいさを検出し、明らかにする2段階のフレームワークであるScene Graph-Chain-of-Thought(SG-CoT)を紹介する。
まず、環境の構造化されたシーングラフ表現は、入力された観察、オブジェクトのキャプチャー、それらの属性、および他のオブジェクトとの関係から構成される。
第2に、LLMは、提供された命令に関連するシーングラフの一部をクエリする検索機能を備えている。
このことは、観測におけるLLMの推論プロセスの基礎となり、曖昧な状況下でのロボットプランナーの信頼性を高める。
SG-CoTはまた、LCMが曖昧さの原因を特定し、ユーザまたは他のロボットに関連する曖昧さの問題を引き起こすことを可能にする。
大規模な実験により、SG-CoTは従来の手法より一貫して優れており、質問精度が10%向上し、単一エージェントでは4%、マルチエージェント環境では15%向上し、より一般化可能なロボット計画の有効性が検証された。
関連論文リスト
- KGLAMP: Knowledge Graph-guided Language model for Adaptive Multi-robot Planning and Replanning [5.713977302944038]
ヘテロジニアスなマルチロボットチームのための知識グラフ誘導LLM計画フレームワークであるKGLAMPを紹介する。
このフレームワークは、オブジェクト関係、空間到達性、ロボット能力をコードする構造化知識グラフを維持している。
MAT-THOR ベンチマークの実験では、KGLAMP は LLM のみと PDDL ベースの両方で少なくとも 25.5% 向上している。
論文 参考訳(メタデータ) (2026-02-04T01:46:02Z) - GLOW: Graph-Language Co-Reasoning for Agentic Workflow Performance Prediction [51.83437071408662]
本稿では,AW性能予測のための統合フレームワークGLOWを提案する。
GLOWは、GNNのグラフ構造モデリング能力とLLMの推論能力を組み合わせる。
FLORA-Benchの実験では、GLOWは予測精度とランキングユーティリティにおいて最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-11T13:30:46Z) - Connecting the Dots: Training-Free Visual Grounding via Agentic Reasoning [63.109585527799005]
GroundingAgentは、タスク固有の微調整なしで動作するビジュアルグラウンドティングフレームワークである。
広く使用されているベンチマークでは、平均ゼロショットグラウンドの精度は65.1%である。
また、強い解釈可能性を提供し、各推論ステップを透過的に照らす。
論文 参考訳(メタデータ) (2025-11-24T03:11:08Z) - Exemplar-Guided Planing: Enhanced LLM Agent for KGQA [15.06175564601295]
対話型エージェントとしての大規模言語モデル(LLM)は知識グラフ質問回答(KGQA)において有望であることを示す
LLMは自然言語クエリと構造化知識グラフ表現の間の意味的ギャップにしばしば苦労する。
我々は,KGQA のための LLM エージェントの計画能力を向上する新しいフレームワーク Exemplar-Guided Planning (EGP) を提案する。
論文 参考訳(メタデータ) (2025-10-17T03:43:06Z) - Enrich-on-Graph: Query-Graph Alignment for Complex Reasoning with LLM Enriching [61.824094419641575]
大言語モデル(LLM)は知識グラフ質問応答(KGQA)のような知識集約的なシナリオにおける幻覚と事実的誤りに苦しむ
これは、構造化知識グラフ(KG)と非構造化クエリのセマンティックギャップによるもので、その焦点や構造に固有の違いが原因である。
既存の手法は通常、バニラKGの資源集約的で非スケーリング可能な推論を用いるが、このギャップを見落としている。
我々は、LLMの事前知識を活用してKGを充実させる柔軟なフレームワークEnrich-on-Graph(EoG)を提案し、グラフとクエリ間のセマンティックギャップを埋める。
論文 参考訳(メタデータ) (2025-09-25T06:48:52Z) - Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control [22.74768543283102]
Graph-Fused Vision-Language-Action (GF-VLA)は、デュアルアームロボットシステムがタスクレベルの推論と実行を可能にするフレームワークである。
GF-VLAはまずシャノン情報に基づく手がかりを抽出し、最も高いタスク関連性を持つ手や物体を識別する。
クロスハンド選択ポリシーは、明示的な幾何学的推論なしで最適な割り当てを推測する。
論文 参考訳(メタデータ) (2025-08-07T12:48:09Z) - LLM Meets Scene Graph: Can Large Language Models Understand and Generate Scene Graphs? A Benchmark and Empirical Study [12.90392791734461]
大規模言語モデル(LLM)は、組み込みAI、ロボティクス、その他の現実世界のタスクに応用を拡大するための道を開いた。
最近の研究は、シーン内のエンティティ、属性、およびそれらの関係をエンコードする構造化された表現であるシーングラフを活用している。
テキストシーングラフ(TSG)ベンチ(Text-Scene Graph)は,LLMのシーングラフ理解能力を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-05-26T04:45:12Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System [5.37125692728042]
マルチエージェント大規模言語モデル(LLM)に基づく反復ガイド付シーングラフ推論フレームワークを提案する。
2つのモジュールが反復的に協調し、シーケンシャルな推論とグラフ情報への適応的な注意を可能にする。
我々のフレームワークは,従来のLCMベースのアプローチや,ベースラインの単一エージェント,ツールベースのReason-while-Retrieve戦略を超越した数値Q&Aと計画タスクを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:50:38Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。