論文の概要: PABU: Progress-Aware Belief Update for Efficient LLM Agents
- arxiv url: http://arxiv.org/abs/2602.09138v1
- Date: Mon, 09 Feb 2026 19:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.21949
- Title: PABU: Progress-Aware Belief Update for Efficient LLM Agents
- Title(参考訳): PABU: 効率的なLLMエージェントのプログレッシブ・アウェア・リーフ更新
- Authors: Haitao Jiang, Lin Ge, Hengrui Cai, Rui Song,
- Abstract要約: 大規模言語モデル (LLM) エージェントは通常、完全な行動観測履歴にアクションを条件付ける。
本稿では,エージェントの状態をコンパクトに表現する信念状態フレームワークであるProgress-Aware Belief Update (PABU)を提案する。
- 参考スコア(独自算出の注目度): 12.010460076354748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents commonly condition actions on full action-observation histories, which introduce task-irrelevant information that easily leads to redundant actions and higher inference cost. We propose Progress-Aware Belief Update (PABU), a belief-state framework that compactly represents an agent's state by explicitly modeling task progress and selectively retaining past actions and observations. At each step, the agent predicts its relative progress since the previous round and decides whether the newly encountered interaction should be stored, conditioning future decisions only on the retained subset. Across eight environments in the AgentGym benchmark, and using identical training trajectories, PABU achieves an 81.0% task completion rate, outperforming previous State of the art (SoTA) models with full-history belief by 23.9%. Additionally, PABU's progress-oriented action selection improves efficiency, reducing the average number of interaction steps to 9.5, corresponding to a 26.9% reduction. Ablation studies show that both explicit progress prediction and selective retention are necessary for robust belief learning and performance gains.
- Abstract(参考訳): 大きな言語モデル(LLM)エージェントは、一般的に完全な行動観測履歴にアクションを条件付け、冗長なアクションや推論コストの上昇につながるタスク関連情報を導入します。
本稿では,タスク進捗を明示的にモデル化し,過去の行動や観察を選択的に保持することにより,エージェントの状態を表す信念状態フレームワークであるProgress-Aware Belief Update(PABU)を提案する。
各ステップにおいて、エージェントは前回のラウンドから相対的な進捗を予測し、新しく遭遇した相互作用が格納されるべきかどうかを判断し、保持されたサブセットにのみ将来の決定を条件付ける。
AgentGymベンチマークの8つの環境と同一のトレーニングトラジェクトリを使用して、PABUは81.0%のタスク完了率を達成し、これまでのState of the Art(SoTA)モデルを23.9%上回った。
さらに、PABUの進歩志向の行動選択は効率を改善し、平均的な相互作用ステップ数を9.5に減らし、26.9%の減少に対応する。
アブレーション研究は、明確な進歩予測と選択的保持の両方が、堅牢な信念学習とパフォーマンス向上に必要であることを示している。
関連論文リスト
- AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - AgentFold: Long-Horizon Web Agents with Proactive Context Management [98.54523771369018]
LLM ベースの Web エージェントは情報検索を大いに約束するが,その有効性はコンテキスト管理における基本的なトレードオフによって妨げられる。
本稿では,プロアクティブなコンテキスト管理を中心としたエージェントパラダイムであるAgentFoldを紹介する。
単純な微調整により,BrowseCompでは36.2%,BrowseComp-ZHでは47.3%を達成した。
論文 参考訳(メタデータ) (2025-10-28T17:51:50Z) - Pre-Act: Multi-Step Planning and Reasoning Improves Acting in LLM Agents [40.73340280747757]
大規模言語モデル(LLM)におけるReAct能力は、現代のエージェントシステムの基盤となっている。
マルチステップ実行計画を作成することでエージェントのパフォーマンスを向上させる新しいアプローチであるPre-Actを導入する。
我々のアプローチは会話エージェントと非会話エージェントの両方に適用できる。
論文 参考訳(メタデータ) (2025-05-15T05:17:47Z) - VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model [39.169389255970806]
HiAgentは、サブゴールをメモリチャンクとして活用して、LLM(Large Language Model)ベースのエージェントの動作メモリを階層的に管理するフレームワークである。
その結果,HiAgentは成功率を2倍に向上し,平均ステップ数を3.8倍に削減した。
論文 参考訳(メタデータ) (2024-08-18T17:59:49Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - When in Doubt, Think Slow: Iterative Reasoning with Latent Imagination [10.24601148760979]
本研究では,このようなエージェントの性能向上のための,新しいトレーニング不要なアプローチを提案する。
我々は、推論されたエージェント状態を微調整するために、意思決定時に反復推論を適用する。
本手法は,視覚的3次元ナビゲーションタスクに適用した場合の再現精度とタスク性能の両面において一貫した改善を実現する。
論文 参考訳(メタデータ) (2024-02-23T12:27:48Z) - Robust Uncertainty Estimation for Classification of Maritime Objects [0.34998703934432673]
モンテカルロ・ドロップアウトにより達成されたクラス内不確実性と結合し,より包括的不確実性を示す手法を提案する。
我々の研究はFPR95を8%改善し、アウト・オブ・ディストリビューションデータを使わずにモデルがトレーニングされる場合の現在の最高性能の作業と比較した。
ベースラインに関してFPR95を44.2%改善し,ShiPSデータセットを公開し,本手法の有効性を示す。
論文 参考訳(メタデータ) (2023-07-03T19:54:53Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。