論文の概要: From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning for Embodied Agents
- arxiv url: http://arxiv.org/abs/2602.04326v1
- Date: Wed, 04 Feb 2026 08:43:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.438203
- Title: From Assumptions to Actions: Turning LLM Reasoning into Uncertainty-Aware Planning for Embodied Agents
- Title(参考訳): 想定から行動へ:LLM推論を不確実性を考慮したエージェントの計画に転換する
- Authors: SeungWon Seo, SooBin Lim, SeongRae Noh, Haneul Kim, HyeongYeop Kang,
- Abstract要約: マルチエージェントで活動し、部分的に観察可能で、分散化された環境では、広範囲にわたる不確実性にもかかわらず計画し行動しなければならない。
我々は,大規模言語モデルで潜在する断片化仮定を構造化決定木に変換するPlanner-Composer-EvaluatorフレームワークであるPCEを紹介する。
また, PCEは, トークン使用率とタスク効率において, コミュニケーション中心のベースラインを一貫して上回り, トークン使用率と同等であることを示す。
- 参考スコア(独自算出の注目度): 5.817643726988822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied agents operating in multi-agent, partially observable, and decentralized environments must plan and act despite pervasive uncertainty about hidden objects and collaborators' intentions. Recent advances in applying Large Language Models (LLMs) to embodied agents have addressed many long-standing challenges, such as high-level goal decomposition and online adaptation. Yet, uncertainty is still primarily mitigated through frequent inter-agent communication. This incurs substantial token and time costs, and can disrupt established workflows, when human partners are involved. We introduce PCE, a Planner-Composer-Evaluator framework that converts the fragmented assumptions latent in LLM reasoning traces into a structured decision tree. Internal nodes encode environment assumptions and leaves map to actions; each path is then scored by scenario likelihood, goal-directed gain, and execution cost to guide rational action selection without heavy communication. Across two challenging multi-agent benchmarks (C-WAH and TDW-MAT) and three diverse LLM backbones, PCE consistently outperforms communication-centric baselines in success rate and task efficiency while showing comparable token usage. Ablation results indicate that the performance gains obtained by scaling model capacity or reasoning depth persist even when PCE is applied, while PCE consistently raises the baseline across both capacity and reasoning-depth scales, confirming that structured uncertainty handling complements both forms of scaling. A user study further demonstrates that PCE produces communication patterns that human partners perceive as more efficient and trustworthy. Together, these results establish a principled route for turning latent LLM assumptions into reliable strategies for uncertainty-aware planning.
- Abstract(参考訳): マルチエージェント、部分的に観察可能、分散化された環境で活動する身体エージェントは、隠された物体や協力者の意図に対する広範囲な不確実性にもかかわらず、計画し行動しなければならない。
エンボディエージェントにLarge Language Models(LLM)を適用する最近の進歩は、高レベルの目標分解やオンライン適応など、長年にわたる課題に対処してきた。
しかし、不確実性は、多くの場合、エージェント間通信によって緩和される。
これは相当なトークンと時間的コストをもたらし、人間のパートナーが関与する場合、確立したワークフローを混乱させる可能性がある。
我々は,LLM推論に潜む断片化された仮定を構造化決定木に変換するPlanner-Composer-EvaluatorフレームワークであるPCEを紹介する。
内部ノードは環境の仮定を符号化してアクションにマップし、それぞれのパスはシナリオ可能性、目標指向のゲイン、そして実行コストによってスコアされ、重いコミュニケーションなしに合理的なアクション選択を導く。
2つの挑戦的なマルチエージェントベンチマーク(C-WAHとTDW-MAT)と3つの多様なLCMバックボーンにおいて、PCEは、同等のトークン使用率を示しながら、成功率とタスク効率においてコミュニケーション中心のベースラインを一貫して上回っている。
その結果,PCEが適用してもモデルキャパシティのスケーリングや推論深度が持続する一方で,PCEはキャパシティと推論深度の両方のベースラインを一貫して引き上げ,構造的不確実性処理が両方のスケーリング形式を補完することを確認した。
ユーザー研究により、PCEは人間のパートナーがより効率的で信頼できると考えるコミュニケーションパターンを生み出すことが示されている。
これらの結果と合わせて、潜伏LLM仮定を不確実性を考慮した計画のための信頼性の高い戦略に変換するための原則的経路を確立した。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - LLM Performance Predictors: Learning When to Escalate in Hybrid Human-AI Moderation Systems [5.7001352660257005]
本稿では,コンテンツモデレーションシステムにおける不確実性定量化の監視のためのフレームワークを提案する。
提案手法は,実世界のヒューマンAIにおいて,コストアウェアの選択的分類を可能にする。
この研究は、不確実性を認識し、スケーラブルで責任あるヒューマンAIモデレーションのための原則化されたフレームワークを確立する。
論文 参考訳(メタデータ) (2026-01-11T17:46:49Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Agentic AI Reasoning for Mobile Edge General Intelligence: Fundamentals, Approaches, and Directions [74.35421055079655]
大規模言語モデル(LLM)は、強力な推論と自律的な意思決定能力を備えたエージェント人工知能(AI)の出現を可能にした。
Mobile Edge General Intelligence (MEGI)は、リアルタイムでプライバシ保護の推論をネットワークエッジにもたらす。
本稿では,MEGIにおけるLLM推論の効率的な展開のための共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:53:48Z) - Certainty-Guided Reasoning in Large Language Models: A Dynamic Thinking Budget Approach [0.15749416770494704]
CGR(Certainty-Guided Reasoning)はトークン使用量を削減するとともに,ベースライン精度を向上させる。
CGRは、確実なしきい値と効率の間の調整可能なトレードオフによって、数百万のトークンを集約的に排除することができる。
信頼性を推論プロセスに統合することにより、CGRは大きな推論言語モデルをより適応的で信頼性があり、リソース効率が良いものにする。
論文 参考訳(メタデータ) (2025-09-09T14:57:15Z) - CausalPlan: Empowering Efficient LLM Multi-Agent Collaboration Through Causality-Driven Planning [25.322580535468013]
CausalPlanは、明示的な構造因果推論を大規模言語モデル(LLM)計画プロセスに統合するフレームワークである。
我々は,5つのマルチエージェント調整タスクと4つのLLMの異なるサイズで,Overcooked-AIベンチマークでCausalPlanを評価した。
その結果、CausalPlanは不適切なアクションを一貫して削減し、AI-AIとヒューマン-AI設定の両方でのコラボレーションを改善していることがわかった。
論文 参考訳(メタデータ) (2025-08-19T10:37:20Z) - AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager [9.21215885702746]
AIM-Benchは、不確実なサプライチェーン管理シナリオにおいて、大規模言語モデル(LLM)の意思決定行動を評価するために設計された新しいベンチマークである。
以上の結果から, LLMは人体とよく似た, 決定バイアスの度合いが異なることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-15T11:38:19Z) - Mitigating Hidden Confounding by Progressive Confounder Imputation via Large Language Models [46.92706900119399]
大規模言語モデル (LLMs) を用いた隠れコンファウンディングの軽減に向けた最初の試みを行う。
本稿では,LLMのセマンティック知識と世界知識を利用して,隠れた共同創設者を反復的に生成し,指示し,検証するフレームワークであるProCIを提案する。
大規模な実験により、ProCIは有意義な共同設立者を明らかにし、治療効果の推定を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-06-26T03:49:13Z) - Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model [14.480267340831542]
高精度世界モデル(SWAP)による構造認識計画
SWAPは構造化知識表現と学習計画を統合する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。