論文の概要: HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2602.16165v1
- Date: Wed, 18 Feb 2026 03:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.505989
- Title: HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents
- Title(参考訳): HiPER: 大規模言語モデルエージェントのための明示的なクレジットアサインメントによる階層的強化学習
- Authors: Jiangweizhi Peng, Yuanxin Liu, Ruida Zhou, Charles Fleming, Zhaoran Wang, Alfredo Garcia, Mingyi Hong,
- Abstract要約: HiPERは階層的計画実行(Hierarchical Plan-Execute RL)フレームワークで、高レベルの計画と低レベルの実行を分離する。
HiPER は ALFWorld で97.4%、Qwen2.5-7B-Instruct で WebShop で83.3% を達成している。
- 参考スコア(独自算出の注目度): 36.77027704958893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training LLMs as interactive agents for multi-turn decision-making remains challenging, particularly in long-horizon tasks with sparse and delayed rewards, where agents must execute extended sequences of actions before receiving meaningful feedback. Most existing reinforcement learning (RL) approaches model LLM agents as flat policies operating at a single time scale, selecting one action at each turn. In sparse-reward settings, such flat policies must propagate credit across the entire trajectory without explicit temporal abstraction, which often leads to unstable optimization and inefficient credit assignment. We propose HiPER, a novel Hierarchical Plan-Execute RL framework that explicitly separates high-level planning from low-level execution. HiPER factorizes the policy into a high-level planner that proposes subgoals and a low-level executor that carries them out over multiple action steps. To align optimization with this structure, we introduce a key technique called hierarchical advantage estimation (HAE), which carefully assigns credit at both the planning and execution levels. By aggregating returns over the execution of each subgoal and coordinating updates across the two levels, HAE provides an unbiased gradient estimator and provably reduces variance compared to flat generalized advantage estimation. Empirically, HiPER achieves state-of-the-art performance on challenging interactive benchmarks, reaching 97.4\% success on ALFWorld and 83.3\% on WebShop with Qwen2.5-7B-Instruct (+6.6\% and +8.3\% over the best prior method), with especially large gains on long-horizon tasks requiring multiple dependent subtasks. These results highlight the importance of explicit hierarchical decomposition for scalable RL training of multi-turn LLM agents.
- Abstract(参考訳): マルチターン意思決定のための対話的エージェントとしてのLSMの訓練は、特に、細かな報酬と遅延した報酬を伴う長期タスクでは、意味のあるフィードバックを受ける前に、エージェントが一連のアクションを実行する必要がある。
既存の強化学習(RL)は、1ターンごとに1つのアクションを選択することで、1つの時間スケールで動作するフラットポリシーとして、モデルLLMエージェントにアプローチする。
スパース・リワード設定では、そのような平坦なポリシーは、明示的な時間的抽象を伴わずに軌道全体にわたって信用を伝播し、しばしば不安定な最適化と非効率な信用割り当てをもたらす。
低レベルの実行から高レベルの計画を明確に分離する新しい階層型計画実行RLフレームワークであるHiPERを提案する。
HiPERはポリシーを、サブゴールを提案するハイレベルプランナーと、複数のアクションステップを実行する低レベルエグゼキュータに分解する。
この構造に最適化を合わせるために、階層的優位推定(HAE)と呼ばれる重要な手法を導入し、計画レベルと実行レベルの両方でクレジットを慎重に割り当てる。
各サブゴールの実行に対するリターンの集約と2つのレベルにわたる更新のコーディネートによって、HAEは偏りのない勾配推定器を提供し、フラットな一般化された優位性推定と比較して、確実に分散を減少させる。
実証的には、HiPERは挑戦的なインタラクティブなベンチマークで最先端のパフォーマンスを達成し、ALFWorldで97.4\%、Qwen2.5-7B-Instruct(+6.6\%と+8.3\%)でWebShopで83.3\%を達成した。
これらの結果は,マルチターンLDMエージェントのスケーラブルなRL学習における明示的な階層的分解の重要性を強調した。
関連論文リスト
- ReAcTree: Hierarchical LLM Agent Trees with Control Flow for Long-Horizon Task Planning [6.600538353483611]
本稿では,複雑な目標を動的に構築されたエージェントツリー内のより管理可能なサブゴールに分解する階層的タスクプランニング手法を提案する。
ReAcTreeは、さまざまな大きな言語モデルでReActのような強力なタスク計画ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-11-04T09:55:40Z) - ReCAP: Recursive Context-Aware Reasoning and Planning for Large Language Model Agents [61.51091799997476]
ReCAP(Recursive Context-Aware Reasoning and Planning)は,大規模言語モデル(LLM)における推論と計画のためのコンテキストを共有する階層型フレームワークである。
ReCAPは、プラン-アヘッド分解、親プランの構造化された再注入、メモリ効率の高い実行という3つの重要なメカニズムを組み合わせる。
実験により、ReCAPは様々なロングホライゾン推論ベンチマークにおけるサブゴールアライメントと成功率を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-27T20:03:55Z) - Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。
階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文 参考訳(メタデータ) (2025-09-26T08:43:39Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning [5.274804664403783]
SSE(Strict Subgoal Execution)は、グラフベースの階層的RLフレームワークで、単一ステップのサブゴアル到達性を強制する。
SSE は既存の目標条件付き RL および階層型 RL アプローチを効率と成功率の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-26T06:35:42Z) - Proposing Hierarchical Goal-Conditioned Policy Planning in Multi-Goal Reinforcement Learning [0.0]
強化学習と自動計画を組み合わせた手法を提案する。
我々のアプローチは,高レベル行動(HLA)を用いたモンテカルロ木探索(MCTS)計画を用いて,階層的に構成された短期目標条件ポリシーを用いる。
エージェントの生涯に維持される単一のプランツリーは、目標達成に関する知識を持っている。
論文 参考訳(メタデータ) (2025-01-03T09:37:54Z) - Generalization of Compositional Tasks with Logical Specification via Implicit Planning [14.46490764849977]
本稿では,タスク一般化の効率性と最適性を向上する階層的RLフレームワークを提案する。
高いレベルでは、作曲タスクの一般化に特化して設計された暗黙のプランナーを示す。
潜時遷移モデルを学び、グラフニューラルネットワーク(GNN)を用いて潜時空間で計画を実行する。
論文 参考訳(メタデータ) (2024-10-13T00:57:10Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Planning with Multi-Constraints via Collaborative Language Agents [13.550774629515843]
本稿では,協調型マルチエージェントシステムのためのゼロショット手法であるPMC(Planning with Multi-Constraints)を紹介する。
PMCは、制約で複雑なタスク計画を簡単にし、従属タスクの階層に分解する。
PMCはTravelPlannerで平均42.68%の成功率を記録し、GPT-4 (2.92%) をはるかに上回り、API-BankでReActを13.64%上回った。
論文 参考訳(メタデータ) (2024-05-26T10:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。