論文の概要: Embodied Task Planning via Graph-Informed Action Generation with Large Lanaguage Model
- arxiv url: http://arxiv.org/abs/2601.21841v1
- Date: Thu, 29 Jan 2026 15:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.930135
- Title: Embodied Task Planning via Graph-Informed Action Generation with Large Lanaguage Model
- Title(参考訳): 大規模ラナゲージモデルを用いたグラフインフォームドアクション生成による身体的タスク計画
- Authors: Xiang Li, Ning Yan, Masood Mortazavi,
- Abstract要約: GiGは、Graph-in-Graphアーキテクチャを使ってエージェントのメモリを具体化する新しい計画フレームワークである。
これらのグラフの埋め込みをクラスタ化することにより、このフレームワークは構造を意識した事前の検索を可能にする。
本フレームワークは,Robotouille Synchronous,Robotouille Asynchronous,ALFWorldの3つの具体的計画ベンチマーク上で評価する。
- 参考スコア(独自算出の注目度): 6.302973995986435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have demonstrated strong zero-shot reasoning capabilities, their deployment as embodied agents still faces fundamental challenges in long-horizon planning. Unlike open-ended text generation, embodied agents must decompose high-level intent into actionable sub-goals while strictly adhering to the logic of a dynamic, observed environment. Standard LLM planners frequently fail to maintain strategy coherence over extended horizons due to context window limitation or hallucinate transitions that violate constraints. We propose GiG, a novel planning framework that structures embodied agents' memory using a Graph-in-Graph architecture. Our approach employs a Graph Neural Network (GNN) to encode environmental states into embeddings, organizing these embeddings into action-connected execution trace graphs within an experience memory bank. By clustering these graph embeddings, the framework enables retrieval of structure-aware priors, allowing agents to ground current decisions in relevant past structural patterns. Furthermore, we introduce a novel bounded lookahead module that leverages symbolic transition logic to enhance the agents' planning capabilities through the grounded action projection. We evaluate our framework on three embodied planning benchmarks-Robotouille Synchronous, Robotouille Asynchronous, and ALFWorld. Our method outperforms state-of-the-art baselines, achieving Pass@1 performance gains of up to 22% on Robotouille Synchronous, 37% on Asynchronous, and 15% on ALFWorld with comparable or lower computational cost.
- Abstract(参考訳): LLM(Large Language Models)は強力なゼロショット推論能力を示しているが、エンボディエージェントとしての展開は、長い水平計画における根本的な課題に直面している。
オープンエンドのテキスト生成とは異なり、エンボディされたエージェントは、動的に観察された環境の論理に厳密に固執しながら、高レベルのインテントを実行可能なサブゴールに分解する必要がある。
標準的なLSMプランナーは、コンテキストウィンドウの制限や制約に反する幻覚遷移のために、拡張された水平線に対する戦略コヒーレンスを維持するのに失敗することが多い。
本稿では,Graph-in-Graphアーキテクチャを用いてエージェントのメモリを具体化するための新しい計画フレームワークであるGiGを提案する。
我々のアプローチでは、環境状態を埋め込みにエンコードするグラフニューラルネットワーク(GNN)を用いて、これらの埋め込みをエクスペリエンスメモリバンク内のアクション接続された実行トレースグラフに整理する。
これらのグラフの埋め込みをクラスタ化することにより、このフレームワークは構造を意識した事前の検索を可能にし、エージェントは関連する過去の構造パターンで現在の決定を下すことができる。
さらに, エージェントの動作予測機能を向上させるために, シンボリック・トランジション・ロジックを活用する新しいバウンド・ルックアヘッド・モジュールを提案する。
本フレームワークは,Robotouille Synchronous,Robotouille Asynchronous,ALFWorldの3つの具体的計画ベンチマーク上で評価する。
提案手法は最先端のベースラインよりも優れており,Robotouille Synchronousでは22%,Asynchronousでは37%,ALFWorldでは15%のPass@1性能向上を実現している。
関連論文リスト
- GLOW: Graph-Language Co-Reasoning for Agentic Workflow Performance Prediction [51.83437071408662]
本稿では,AW性能予測のための統合フレームワークGLOWを提案する。
GLOWは、GNNのグラフ構造モデリング能力とLLMの推論能力を組み合わせる。
FLORA-Benchの実験では、GLOWは予測精度とランキングユーティリティにおいて最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-11T13:30:46Z) - GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning [50.40400074353263]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを先行する強力なツールであるが、しばしば目に見えないグラフに一般化するのに苦労する。
textbfGraph textbfIn-context textbfL textbfTransformer (GILT)を導入する。
論文 参考訳(メタデータ) (2025-10-06T08:09:15Z) - Resource-Aware Neural Network Pruning Using Graph-based Reinforcement Learning [0.8890833546984916]
本稿では,グラフベースの観測空間をAutoMLフレームワークに統合することで,ニューラルネットワークのプルーニングに新たなアプローチを提案する。
本フレームワークは,対象ニューラルネットワークのグラフ表現を導入することにより,刈り込み処理を変換する。
作用空間に対しては、連続プルーニング比から細粒な二分作用空間へ遷移する。
論文 参考訳(メタデータ) (2025-09-04T15:05:05Z) - Youtu-GraphRAG: Vertically Unified Agents for Graph Retrieval-Augmented Complex Reasoning [32.78218766121055]
グラフ検索拡張生成(GraphRAG)は,複雑な推論において,大規模言語モデルを効果的に拡張した。
本稿では,フレームワーク全体を複雑な統合として結合する,垂直に統一されたエージェントパラダイムYoutu-GraphRAGを提案する。
論文 参考訳(メタデータ) (2025-08-27T13:13:20Z) - GLANCE: Graph Logic Attention Network with Cluster Enhancement for Heterophilous Graph Representation Learning [47.674647127050186]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習する上で大きな成功を収めている。
本稿では,論理誘導推論,動的グラフ改善,適応クラスタリングを統合し,グラフ表現学習を強化する新しいフレームワークであるGLANCEを提案する。
論文 参考訳(メタデータ) (2025-07-24T15:45:26Z) - A Pre-training Framework for Relational Data with Information-theoretic Principles [57.93973948947743]
本稿では,リレーショナルグラフ上の集合に基づくアグリゲーションを通じて,監視信号を構成する新しい事前学習フレームワークであるTask Vector Estimation (TVE)を紹介する。
TVEは従来のトレーニング前のベースラインを一貫して上回っている。
本研究は,関係データベース上での予測モデルの設計原則として,タスクの不均一性と時間構造を符号化する事前学習目的を提唱する。
論文 参考訳(メタデータ) (2025-07-14T00:17:21Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - RGL: A Graph-Centric, Modular Framework for Efficient Retrieval-Augmented Generation on Graphs [58.10503898336799]
完全なRAGパイプラインをシームレスに統合するモジュラーフレームワークであるRAG-on-Graphs Library(RGL)を紹介した。
RGLは、さまざまなグラフフォーマットをサポートし、必須コンポーネントの最適化実装を統合することで、重要な課題に対処する。
評価の結果,RGLはプロトタイピングプロセスの高速化だけでなく,グラフベースRAGシステムの性能や適用性の向上も図っている。
論文 参考訳(メタデータ) (2025-03-25T03:21:48Z) - SGTR+: End-to-end Scene Graph Generation with Transformer [42.396971149458324]
シーングラフ生成(SGG)は、その構成特性のため、困難な視覚的理解課題である。
これまでのほとんどの作業ではボトムアップ、2段階またはポイントベースの1段階のアプローチを採用していた。
本稿では、上記の問題に対処する新しいSGG法を提案し、そのタスクを二部グラフ構築問題として定式化する。
論文 参考訳(メタデータ) (2024-01-23T15:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。