論文の概要: ABBEL: LLM Agents Acting through Belief Bottlenecks Expressed in Language
- arxiv url: http://arxiv.org/abs/2512.20111v1
- Date: Tue, 23 Dec 2025 07:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.781308
- Title: ABBEL: LLM Agents Acting through Belief Bottlenecks Expressed in Language
- Title(参考訳): ABBEL:言語で表現されたBreef Bottlenecksを介して作用するLLMエージェント
- Authors: Aly Lidayan, Jakob Bjorner, Satvik Golechha, Kartik Goyal, Alane Suhr,
- Abstract要約: エージェントが複数ステップのインタラクションを通じて簡潔なコンテキストを維持するためのフレームワークを提案する。
ABBELでは、各ステップにおいて、エージェントはまず、環境から最新の観察で事前の信念を更新し、後続の信念を形成し、その後、後続の信念のみを使用して行動を選択する。
我々は、強化学習(RL)を通して、ALBELフレームワーク内での信念を創造し、行動するためにLSMを訓練する。
- 参考スコア(独自算出の注目度): 14.336875324840888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the length of sequential decision-making tasks increases, it becomes computationally impractical to keep full interaction histories in context. We introduce a general framework for LLM agents to maintain concise contexts through multi-step interaction: Acting through Belief Bottlenecks Expressed in Language (ABBEL), and methods to further improve ABBEL agents with RL post-training. ABBEL replaces long multi-step interaction history by a belief state, i.e., a natural language summary of what has been discovered about task-relevant unknowns. Under ABBEL, at each step the agent first updates a prior belief with the most recent observation from the environment to form a posterior belief, then uses only the posterior to select an action. We systematically evaluate frontier models under ABBEL across six diverse multi-step environments, finding that ABBEL supports generating interpretable beliefs while maintaining near-constant memory use over interaction steps. However, bottleneck approaches are generally prone to error propagation, which we observe causing inferior performance when compared to the full context setting due to errors in belief updating. Therefore, we train LLMs to generate and act on beliefs within the ABBEL framework via reinforcement learning (RL). We experiment with belief grading, to reward higher quality beliefs, as well as belief length penalties to reward more compressed beliefs. Our experiments demonstrate the ability of RL to improve ABBEL's performance beyond the full context setting, while using less memory than contemporaneous approaches.
- Abstract(参考訳): シーケンシャルな意思決定タスクの長さが増加するにつれて、完全な相互作用履歴を文脈に保持することは、計算的に不可能になる。
本稿では,多段階インタラクションによる簡潔なコンテキスト維持のためのLLMエージェントの汎用フレームワークについて紹介する。
ABBELは、長い多段階の相互作用履歴を信念状態、すなわちタスク関連未知について発見されたことの自然言語の要約に置き換える。
ABBELでは、各ステップにおいて、エージェントはまず、環境から最新の観察で事前の信念を更新し、後続の信念を形成し、その後、後続の信念のみを使用して行動を選択する。
ABBELのフロンティアモデルは6つの多様なマルチステップ環境にまたがって体系的に評価され、ABBELは解釈可能な信念の生成をサポートしながら、相互作用ステップよりもほぼ一定に近いメモリ使用を維持できることがわかった。
しかし、ボトルネックのアプローチは一般的にエラーの伝播に起因し、信頼の更新によるエラーによる完全なコンテキスト設定に比べて性能が劣っていることが観察される。
そこで我々は,強化学習 (RL) を通じて, ABBEL フレームワーク内での信念の生成と行動を行うために LLM を訓練する。
我々は、より高品質な信念に報いるため、そしてより圧縮された信念に報いるために、信念のグレーディングを実験する。
実験では,コンテンポラスアプローチよりも少ないメモリ使用量で,ABBELの性能をフルコンテキスト設定を超えて向上させることができることを示した。
関連論文リスト
- Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF [47.19899163378932]
大規模言語モデル(LLM)におけるマルチターンRLHFに対応するために,Regressing the RELative Future(REFUEL)を導入する。
REFUELは、反復的に収集されたデータセット上の回帰タスクのシーケンスとして、マルチターンRLHF問題をフレーム化している。
我々はLlama-3.1-70B-itを用いて,モデルとの対話においてユーザをシミュレートするアルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-10-06T20:20:22Z) - Reason for Future, Act for Now: A Principled Framework for Autonomous
LLM Agents with Provable Sample Efficiency [53.8779374188643]
本稿では,推論と行動のオーケストレーションを行うための,証明可能な後悔の保証を備えた原則的枠組みを提案する。
具体的には、メモリバッファから学習する推論のためのプロンプトテンプレートを設計し、長い水平線上で将来の軌道を計画する。
各ステップにおいて、LLMエージェントは計画された軌跡の初期動作("act for now")を受け取り、収集したフィードバックをメモリバッファに格納し、推論ルーチンを再起動して、将来の軌跡を新しい状態から再設計する。
論文 参考訳(メタデータ) (2023-09-29T16:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。