論文の概要: From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning for Embodied Agents
- arxiv url: http://arxiv.org/abs/2602.04326v1
- Date: Wed, 04 Feb 2026 08:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.438203
- Title: From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning for Embodied Agents
- Title(参考訳): 想定から行動へ:LLM推論を不確実性を考慮したエージェントの計画に転換する
- Authors: SeungWon Seo, SooBin Lim, SeongRae Noh, Haneul Kim, HyeongYeop Kang,
- Abstract要約: マルチエージェントで活動し、部分的に観察可能で、分散化された環境では、広範囲にわたる不確実性にもかかわらず計画し行動しなければならない。
我々は,大規模言語モデルで潜在する断片化仮定を構造化決定木に変換するPlanner-Composer-EvaluatorフレームワークであるPCEを紹介する。
また, PCEは, トークン使用率とタスク効率において, コミュニケーション中心のベースラインを一貫して上回り, トークン使用率と同等であることを示す。
- 参考スコア(独自算出の注目度): 5.817643726988822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied agents operating in multi-agent, partially observable, and decentralized environments must plan and act despite pervasive uncertainty about hidden objects and collaborators' intentions. Recent advances in applying Large Language Models (LLMs) to embodied agents have addressed many long-standing challenges, such as high-level goal decomposition and online adaptation. Yet, uncertainty is still primarily mitigated through frequent inter-agent communication. This incurs substantial token and time costs, and can disrupt established workflows, when human partners are involved. We introduce PCE, a Planner-Composer-Evaluator framework that converts the fragmented assumptions latent in LLM reasoning traces into a structured decision tree. Internal nodes encode environment assumptions and leaves map to actions; each path is then scored by scenario likelihood, goal-directed gain, and execution cost to guide rational action selection without heavy communication. Across two challenging multi-agent benchmarks (C-WAH and TDW-MAT) and three diverse LLM backbones, PCE consistently outperforms communication-centric baselines in success rate and task efficiency while showing comparable token usage. Ablation results indicate that the performance gains obtained by scaling model capacity or reasoning depth persist even when PCE is applied, while PCE consistently raises the baseline across both capacity and reasoning-depth scales, confirming that structured uncertainty handling complements both forms of scaling. A user study further demonstrates that PCE produces communication patterns that human partners perceive as more efficient and trustworthy. Together, these results establish a principled route for turning latent LLM assumptions into reliable strategies for uncertainty-aware planning.
- Abstract(参考訳): マルチエージェント、部分的に観察可能、分散化された環境で活動する身体エージェントは、隠された物体や協力者の意図に対する広範囲な不確実性にもかかわらず、計画し行動しなければならない。
エンボディエージェントにLarge Language Models(LLM)を適用する最近の進歩は、高レベルの目標分解やオンライン適応など、長年にわたる課題に対処してきた。
しかし、不確実性は、多くの場合、エージェント間通信によって緩和される。
これは相当なトークンと時間的コストをもたらし、人間のパートナーが関与する場合、確立したワークフローを混乱させる可能性がある。
我々は,LLM推論に潜む断片化された仮定を構造化決定木に変換するPlanner-Composer-EvaluatorフレームワークであるPCEを紹介する。
内部ノードは環境の仮定を符号化してアクションにマップし、それぞれのパスはシナリオ可能性、目標指向のゲイン、そして実行コストによってスコアされ、重いコミュニケーションなしに合理的なアクション選択を導く。
2つの挑戦的なマルチエージェントベンチマーク(C-WAHとTDW-MAT)と3つの多様なLCMバックボーンにおいて、PCEは、同等のトークン使用率を示しながら、成功率とタスク効率においてコミュニケーション中心のベースラインを一貫して上回っている。
その結果,PCEが適用してもモデルキャパシティのスケーリングや推論深度が持続する一方で,PCEはキャパシティと推論深度の両方のベースラインを一貫して引き上げ,構造的不確実性処理が両方のスケーリング形式を補完することを確認した。
ユーザー研究により、PCEは人間のパートナーがより効率的で信頼できると考えるコミュニケーションパターンを生み出すことが示されている。
これらの結果と合わせて、潜伏LLM仮定を不確実性を考慮した計画のための信頼性の高い戦略に変換するための原則的経路を確立した。
関連論文リスト
- LLM Performance Predictors: Learning When to Escalate in Hybrid Human-AI Moderation Systems [5.7001352660257005]
本稿では,コンテンツモデレーションシステムにおける不確実性定量化の監視のためのフレームワークを提案する。
提案手法は,実世界のヒューマンAIにおいて,コストアウェアの選択的分類を可能にする。
この研究は、不確実性を認識し、スケーラブルで責任あるヒューマンAIモデレーションのための原則化されたフレームワークを確立する。
論文 参考訳(メタデータ) (2026-01-11T17:46:49Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - CausalPlan: Empowering Efficient LLM Multi-Agent Collaboration Through Causality-Driven Planning [25.322580535468013]
CausalPlanは、明示的な構造因果推論を大規模言語モデル(LLM)計画プロセスに統合するフレームワークである。
我々は,5つのマルチエージェント調整タスクと4つのLLMの異なるサイズで,Overcooked-AIベンチマークでCausalPlanを評価した。
その結果、CausalPlanは不適切なアクションを一貫して削減し、AI-AIとヒューマン-AI設定の両方でのコラボレーションを改善していることがわかった。
論文 参考訳(メタデータ) (2025-08-19T10:37:20Z) - Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model [14.480267340831542]
高精度世界モデル(SWAP)による構造認識計画
SWAPは構造化知識表現と学習計画を統合する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。