論文の概要: Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
- arxiv url: http://arxiv.org/abs/2509.09265v1
- Date: Thu, 11 Sep 2025 08:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.303326
- Title: Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
- Title(参考訳): ハーネスング不確かさ:長軸LLM剤のエントロピー変調政策勾配
- Authors: Jiawei Wang, Jiacai Liu, Yuqian Fu, Yingru Li, Xintao Wang, Yuan Lin, Yu Yue, Lin Zhang, Yang Wang, Ke Wang,
- Abstract要約: エントロピー変調政策勾配(Entropy-Modulated Policy Gradients, EMPG)は、段階的不確実性と最終課題結果に基づいて学習信号を再分類するフレームワークである。
EMPGは、確実な正しい行動の更新を増幅し、確実なエラーをペナルティ化し、探索を安定させるために不確実なステップからの更新を減衰する。
- 参考スコア(独自算出の注目度): 24.972357127546772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In long-horizon tasks, recent agents based on Large Language Models (LLMs) face a significant challenge that sparse, outcome-based rewards make it difficult to assign credit to intermediate steps. Previous methods mainly focus on creating dense reward signals to guide learning, either through traditional reinforcement learning techniques like inverse reinforcement learning or by using Process Reward Models for step-by-step feedback. In this paper, we identify a fundamental problem in the learning dynamics of LLMs: the magnitude of policy gradients is inherently coupled with the entropy, which leads to inefficient small updates for confident correct actions and potentially destabilizes large updates for uncertain ones. To resolve this, we propose Entropy-Modulated Policy Gradients (EMPG), a framework that re-calibrates the learning signal based on step-wise uncertainty and the final task outcome. EMPG amplifies updates for confident correct actions, penalizes confident errors, and attenuates updates from uncertain steps to stabilize exploration. We further introduce a bonus term for future clarity that encourages agents to find more predictable solution paths. Through comprehensive experiments on three challenging agent tasks, WebShop, ALFWorld, and Deep Search, we demonstrate that EMPG achieves substantial performance gains and significantly outperforms strong policy gradient baselines. Project page is at https://empgseed-seed.github.io/
- Abstract(参考訳): 長期的タスクでは、最近のLarge Language Models (LLM) に基づくエージェントは、スパースで結果に基づく報酬が中間ステップにクレジットを割り当てるのを難しくする重大な課題に直面している。
従来の手法は主に、逆強化学習のような従来の強化学習技術や、ステップバイステップのフィードバックにProcess Reward Modelsを使用することによって、学習をガイドするための高密度な報酬信号の作成に重点を置いていた。
本稿では, LLMの学習力学における根本的な問題として, 政策勾配の大きさとエントロピーが本質的に結びついており, 確実な行動に対する不効率な小さな更新と, 不確実な行動に対する大規模な更新を安定化させる可能性がある。
そこで我々は,段階的不確実性と最終課題結果に基づいて学習信号を再分類するフレームワークであるEntropy-Modulated Policy Gradients (EMPG)を提案する。
EMPGは、確実な正しい行動の更新を増幅し、確実なエラーをペナルティ化し、探索を安定させるために不確実なステップからの更新を減衰する。
さらに、エージェントがより予測可能なソリューションパスを見つけることを奨励する、将来の明確性のためのボーナス用語を紹介します。
WebShop、ALFWorld、Deep Searchの3つの挑戦的エージェントタスクに関する包括的な実験を通じて、EMPGが大幅なパフォーマンス向上を実現し、強力なポリシー勾配ベースラインを著しく上回ることを示す。
プロジェクトページはhttps://empgseed-seed.github.io/にある。
関連論文リスト
- Succeed or Learn Slowly: Sample Efficient Off-Policy Reinforcement Learning for Mobile App Control [50.316067647636196]
本稿では,モバイルアプリ制御タスクで評価された新規な非政治強化学習アルゴリズムであるSucceed or Learn Slowly (SoLS)を紹介する。
SoLSは、ユーザーインターフェースナビゲーションのための微調整基礎モデルにおいて、非政治的アクター-批判的アプローチを修正することで、サンプル効率を改善する。
我々は、成功した対話から学習を優先するSTR(Success Transition Replay)でSOLSを増強する。
論文 参考訳(メタデータ) (2025-09-01T18:55:27Z) - Beyond Freezing: Sparse Tuning Enhances Plasticity in Continual Learning with Pre-Trained Models [10.904981532789824]
事前訓練されたモデルによる継続的な学習は、シーケンシャルなタスクにまたがる効率的な適応を大いに約束する。
既存のアプローチはPTMを凍結し、プロンプトやアダプタのような補助モジュールに依存している。
MIST(Mutual Information-Guided Sparse Tuning)は,PTMパラメータのサブセットを選択的に更新するプラグイン・アンド・プレイ方式である。
論文 参考訳(メタデータ) (2025-05-26T13:09:25Z) - Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
大規模言語モデル(LLM)は、より有能で広く普及している。
テスト時間計算の標準化, 測定, スケーリングの最近の進歩は, ハードタスクにおける高い性能を達成するためにモデルを最適化するための新しい手法を提案する。
本稿では、これらの進歩をジェイルブレイクモデルに応用し、協調LDMから有害な応答を誘発する。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Bayesian Inverse Transition Learning for Offline Settings [30.10905852013852]
強化学習は、医療や教育などの領域におけるシーケンシャルな意思決定に一般的に用いられる。
我々は、遷移力学の後方分布を確実に学習するために、デシダラタを捕捉する新しい制約ベースのアプローチを提案する。
その結果、制約を用いることで、高いパフォーマンスのポリシーを学習し、異なるデータセットに対するポリシーのばらつきを著しく低減することを示した。
論文 参考訳(メタデータ) (2023-08-09T17:08:29Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。