論文の概要: Hindsight Credit Assignment for Long-Horizon LLM Agents
- arxiv url: http://arxiv.org/abs/2603.08754v1
- Date: Sat, 07 Mar 2026 06:05:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.724603
- Title: Hindsight Credit Assignment for Long-Horizon LLM Agents
- Title(参考訳): 長期LDMエージェントの高次クレジットアサインメント
- Authors: Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: HCAPOは,隠れた信用代入をLarge Language Model (LLM)エージェントに統合する最初のフレームワークである。
WebShopやALFWorldを含む3つのベンチマークによる評価は、HCAPOが最先端のRLメソッドを一貫して上回っていることを示している。
これらの結果から, HCAPOは探索効率を著しく向上し, 簡潔な意思決定を促進し, 複雑な長期タスクにおけるスケーラビリティを確保することが示唆された。
- 参考スコア(独自算出の注目度): 25.156923297108836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents often face significant credit assignment challenges in long-horizon, multi-step tasks due to sparse rewards. Existing value-free methods, such as Group Relative Policy Optimization (GRPO), encounter two fundamental bottlenecks: inaccurate step-level Q-value estimation and misaligned value baselines for intermediate states. To address these limitations, we introduce HCAPO, the first framework to integrate hindsight credit assignment into LLM agents. HCAPO leverages the LLM itself as a post-hoc critic to refine step-level Q-values through hindsight reasoning. Furthermore, HCAPO's multi-scale advantage mechanism effectively supplements the inaccurate value baselines at critical decision states. Evaluations across three challenging benchmarks, including WebShop and ALFWorld, demonstrate that HCAPO consistently outperforms state-of-the-art RL methods. Notably, HCAPO achieves a 7.7% improvement in success rate on WebShop and a 13.8% on ALFWorld over GRPO using the Qwen2.5-7B-Instruct model. These results indicate that HCAPO significantly enhances exploration efficiency, promotes concise decision-making, and ensures scalability in complex, long-horizon tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、細かな報酬のために、長い水平、多段階のタスクにおいて重要なクレジット割り当て課題に直面していることが多い。
グループ相対政策最適化(GRPO)のような既存の価値のない手法は、不正確なステップレベルのQ値推定と中間状態に対する不整合値ベースラインという2つの基本的なボトルネックに直面する。
これらの制約に対処するため、我々はHCAPOを導入し、HCAPOはLLMエージェントに暗黙の信用代入を組み込む最初のフレームワークである。
HCAPOはLCM自体をポストホックな批判として活用し、後述の推論を通じてステップレベルのQ値を洗練させる。
さらに、HCAPOのマルチスケールアドバンテージ機構は、臨界決定状態における不正確な値ベースラインを効果的に補う。
WebShopやALFWorldを含む3つの挑戦的なベンチマークによる評価は、HCAPOが最先端のRLメソッドを一貫して上回っていることを示している。
特に、HCAPOはWebShopで7.7%改善し、Qwen2.5-7B-Instructモデルを使用してGRPOでALFWorldで13.8%向上した。
これらの結果から, HCAPOは探索効率を著しく向上し, 簡潔な意思決定を促進し, 複雑な長期タスクにおけるスケーラビリティを確保することが示唆された。
関連論文リスト
- Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。
エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。
1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。
本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T11:59:25Z) - Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning [5.880405013005892]
ACPOは、困難なカリキュラムを組み込んだ段階的なフレームワークである。
ACPOは、トラジェクティブセマンティックセグメンテーションと属性ベースの表現を用いて探索を改善する。
これは、各推論ステップの階層的寄与を正確に定量化する分解された報酬システムによる搾取を強化する。
論文 参考訳(メタデータ) (2025-10-10T01:22:55Z) - CAPO: Towards Enhancing LLM Reasoning through Generative Credit Assignment [44.33395106709674]
RLVR(Reinforcement Learning with Verifiable Rewards)は、ルールベースのバイナリフィードバックを使用することで、LLM(Large Language Models)の推論能力を改善した。
現在のRLVRメソッドは、通常、すべてのトークンに同じ報酬を割り当てる。
この粗い粒度のフィードバックは、正確なクレジット割り当てを妨げ、モデルがどの推論ステップが成功または失敗につながるかを特定するのが難しくなる。
論文 参考訳(メタデータ) (2025-08-04T11:06:08Z) - Enhancing Decision-Making of Large Language Models via Actor-Critic [28.870961806283425]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な進歩を遂げている。
既存の方法は、ロールアウトを正確にシミュレートし、結果を評価する際に、短期的な自己回帰的な行動生成か、制限に直面している。
本稿では,LLM をベースとした Actor-Critic フレームワーク LAC を提案する。
論文 参考訳(メタデータ) (2025-06-04T14:58:27Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。