論文の概要: Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty
- arxiv url: http://arxiv.org/abs/2605.11436v1
- Date: Tue, 12 May 2026 02:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.534212
- Title: Agent-BRACE: Decoupling Beliefs from Actions in Long-Horizon Tasks via Verbalized State Uncertainty
- Title(参考訳): Agent-BRACE: 垂直状態不確実性による長期タスクにおける行動からの信念の分離
- Authors: Joykirat Singh, Zaid Khan, Archiki Prasad, Justin Chih-Yao Chen, Akshay Nambi, Hyunji Lee, Elias Stengel-Eskin, Mohit Bansal,
- Abstract要約: 本稿では,Agens-BRACE: Agent Belief state Representation by Abstraction and Confidence Estimationを紹介する。
LLMエージェントを信頼状態モデルと政策モデルに分離し、強化学習を通じて協調的に最適化する手法である。
長期にわたる部分的に観察可能な言語環境において、平均して+14.5%の絶対的な改善を実現している。
- 参考スコア(独自算出の注目度): 70.43119366710778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed on long-horizon tasks in partially observable environments, where they must act while inferring and tracking a complex environment state over many steps. This leads to two challenges: partial observability requires maintaining uncertainty over unobserved world attributes, and long interaction history causes context to grow without bound, diluting task-relevant information. A principled solution to both challenges is a belief state: a posterior distribution over environment states given past observations and actions, which compactly encodes history for decision making regardless of episode length. In LLM agents, however, the open-ended nature of text makes it unclear how to represent such a distribution. Therefore, we introduce Agent-BRACE: Agent Belief state Representation via Abstraction and Confidence Estimation, a method that decouples an LLM agent into a belief state model and a policy model, jointly optimized via reinforcement learning. The belief state model produces a structured approximation of the belief distribution: a set of atomic natural language claims about the environment, each annotated with an ordinal verbalized certainty label ranging from certain to unknown. The policy model conditions on this compact, structured approximate belief rather than the full history, learning to select actions under explicit uncertainty. Across long-horizon, partially observable embodied language environments, Agent-BRACE achieves an average absolute improvement of +14.5% (Qwen2.5-3B-Instruct) and +5.3% (Qwen3-4B-Instruct), outperforming strong RL baselines while maintaining a near-constant context window independent of episode length. Further analysis shows that the learned belief becomes increasingly calibrated over the course of an episode as evidence accumulates.
- Abstract(参考訳): 大規模言語モデル(LLM)は、部分的に観察可能な環境での長い水平タスクにますますデプロイされ、複雑な環境状態の推論と追跡を行う必要がある。
これは2つの課題に繋がる: 部分的可観測性は、観測されていない世界属性に対する不確実性を維持することを必要とし、長い相互作用履歴は、境界のないタスク関連情報を希薄にすることなく、コンテキストを成長させる。
両方の課題に対する原則的な解決策は信念状態である: 過去の観察と行動によって与えられた環境状態に対する後続の分布は、エピソードの長さに関わらず意思決定の歴史をコンパクトに符号化する。
しかし、LLMエージェントでは、テキストのオープンな性質によって、そのような分布をどのように表現するかがはっきりしない。
そこで我々は,LLMエージェントを信念状態モデルとポリシーモデルに分解し,強化学習を通じて協調的に最適化する手法である,抽象と信頼推定によるエージェント信奉状態表現を提案する。
信念状態モデルは、信念分布の構造化された近似を生成する: 環境に関する原子自然言語の集合、それぞれが特定のものから未知のものまで、順序付き言語化された確実性ラベルで注釈付けされる。
このコンパクトで構造化された信念に関する政策モデル条件は、完全な歴史ではなく、明確な不確実性の下で行動を選択することを学ぶものである。
長期にわたる部分的に観察可能な言語環境の中で、Agent-BRACEは+14.5%(Qwen2.5-3B-インストラクト)と+5.3%(Qwen3-4B-インストラクト)の平均絶対的な改善を実現し、エピソードの長さに依存しないほぼ一貫したコンテキストウィンドウを維持しながら、強いRLベースラインを上回っている。
さらなる分析は、証拠が蓄積されるにつれて、学習された信念がエピソードの経過とともに徐々に校正されることを示している。
関連論文リスト
- Tracking the Truth: Object-Centric Spatio-Temporal Monitoring for Video Large Language Models [154.39583176906893]
大規模言語モデル(ML)は高度な理解を持ち、シーンにおける幻覚の傾向が高い。
これは、時間的モニタリングの失敗、オブジェクトの動的アイデンティティ、状態、そして時間とともに関係を永続的に追跡する能力に起因している、と我々は主張する。
既存のベンチマークでは、局所的な視覚的手がかりや統計的先行によってしばしば解決される1つの最終回答クエリに頼って、この欠陥を曖昧にしている。
論文 参考訳(メタデータ) (2026-05-09T14:32:36Z) - The Context Gathering Decision Process: A POMDP Framework for Agentic Search [38.92972416925679]
大規模言語モデル(LLM)エージェントは複雑な環境にデプロイされる。
明示的なインフラストラクチャがなければ、エージェントの動作メモリは、検索状態の損失のある表現に分解される可能性がある。
我々はこの課題をコンテキスト収集決定プロセス(CGDP)として定式化する。
反復LDM剤に対する2つのプラグ・アンド・プレイ介入法を導出する。
論文 参考訳(メタデータ) (2026-05-07T23:45:07Z) - Learning Uncertainty from Sequential Internal Dispersion in Large Language Models [52.29267172760918]
不確実性推定は、大規模言語モデルにおける幻覚を検出するための有望なアプローチである。
最近の手法は一般に不確実性を推定するために内部状態のモデルに依存する。
本稿では,教師付き幻覚検出フレームワークであるシークエンシャル内部変数表現(SIVR)を提案する。
論文 参考訳(メタデータ) (2026-04-17T06:31:29Z) - Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies [28.436766185842767]
本稿では,計算仮想エスノグラフィーと定量的社会認知プロファイリングを組み合わせた新しい混合メソドックスフレームワークを提案する。
Innate Value Bias (IVB)、Persuasion Sensitivity、Trust-Action Decoupling (TAD)の3つの新しいメトリクスを形式化する。
発見は静的なプロンプトエンジニアリングの脆弱さを明らかにし、人間とエージェントのハイブリッド社会における動的アライメントの方法論的かつ定量的基盤を提供する。
論文 参考訳(メタデータ) (2026-03-24T16:38:46Z) - LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth [32.1520194112537]
大規模言語モデル(LLM)は、長期の現実世界のタスクを実行する能力がますます高まっている。
文脈の量が増えるにつれて、その信頼性はしばしば悪化し、これは"context rot"と呼ばれる現象である。
論文 参考訳(メタデータ) (2026-02-08T13:20:39Z) - ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - Illusions of Confidence? Diagnosing LLM Truthfulness via Neighborhood Consistency [78.91846841708586]
完全な自己整合性で答えられた事実でさえ、軽微な文脈干渉の下で急速に崩壊することを示します。
本研究では,概念的近傍における応答コヒーレンスを評価する信念の構造尺度であるNighbor-Consistency Belief(NCB)を提案する。
また、文脈不変の信念構造を最適化し、長い知識の脆さを約30%低減する構造意識訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2026-01-09T16:23:21Z) - Limits of Emergent Reasoning of Large Language Models in Agentic Frameworks for Deterministic Games [2.357397994148727]
大規模推論モデル(LRM)は、特定の難易度しきい値を超えたパズルの解法の性能の低下を経験する。
本研究では,ハノイ問題タワーの環境インタフェースを備えた大規模言語モデル(LLM)を提案する。
環境インターフェースへのアクセスが性能の低下を遅らせたり、根絶したりしないことを観察する。
論文 参考訳(メタデータ) (2025-10-12T23:48:16Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。