論文の概要: Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks
- arxiv url: http://arxiv.org/abs/2602.22817v1
- Date: Thu, 26 Feb 2026 09:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.634296
- Title: Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks
- Title(参考訳): 長距離エージェントタスクのための階層型グループポリシー最適化
- Authors: Shuo He, Lang Feng, Qi Wei, Xin Cheng, Lei Feng, Bo An,
- Abstract要約: グループベース強化学習(RL)は、長期エージェントタスクにおける大規模言語モデルの能力を向上させる。
私たちは、ステップワイドな相対的優位性、すなわち、同じグループ内のステップが歴史的な文脈で異なる場合のコンテキスト不整合を推定する上で、重要な問題を見つけます。
歴史的文脈の整合性に応じて各ステップを複数の階層群に割り当てるHGPOを提案する。
- 参考スコア(独自算出の注目度): 23.119173310662365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group-based reinforcement learning (RL), such as GRPO, has advanced the capabilities of large language models on long-horizon agentic tasks. To enable more fine-grained policy updates, recent research has increasingly shifted toward stepwise group-based policy optimization, which treats each step in a rollout trajectory independently while using a memory module to retain historical context. However, we find a key issue in estimating stepwise relative advantages, namely context inconsistency, where steps within the same group may differ in their historical contexts. Empirically, we reveal that this issue can lead to severely biased advantage estimation, thereby degrading policy optimization significantly. To address the issue, in this paper, we propose Hierarchy-of-Groups Policy Optimization (HGPO) for long-horizon agentic tasks. Specifically, within a group of rollout trajectories, HGPO assigns each step to multiple hierarchical groups according to the consistency of historical contexts. Then, for each step, HGPO computes distinct advantages within each group and aggregates them with an adaptive weighting scheme. In this way, HGPO can achieve a favorable bias-variance trade-off in stepwise advantage estimation, without extra models or rollouts. Evaluations on two challenging agentic tasks, ALFWorld and WebShop with Qwen2.5-1.5B-Instruct and Qwen2.5-7B-Instruct, show that HGPO significantly outperforms existing agentic RL methods under the same computational constraints. Code is available at https://github.com/langfengQ/verl-agent/tree/master/recipe/hgpo.
- Abstract(参考訳): GRPOのようなグループベース強化学習(RL)は、長期エージェントタスクにおける大規模言語モデルの能力を向上させる。
よりきめ細かいポリシー更新を可能にするため、最近の研究は段階的にグループベースのポリシー最適化に移行し、歴史的コンテキストを維持するためにメモリモジュールを使用しながら、ロールアウト軌跡内の各ステップを独立に扱うようになった。
しかし、同じグループ内のステップがそれぞれの歴史的文脈で異なる場合において、ステップワイドな相対的優位性、すなわちコンテキストの不整合を推定する上で、重要な問題がある。
経験的に、この問題が過度に偏りのある優位性推定に繋がる可能性があり、それによって政策最適化が著しく低下することを明らかにする。
この問題に対処するため,本稿では,長期エージェントタスクのための階層型グループポリシー最適化(HGPO)を提案する。
具体的には、ロールアウト軌道群の中で、HGPOは各ステップを歴史的文脈の整合性に応じて複数の階層群に割り当てる。
そして、各ステップに対して、HGPOは各グループ内で異なる利点を計算し、適応重み付けスキームでそれらを集約する。
このようにして、HGPOは、追加のモデルやロールアウトなしで、段階的に有利な推定において、好ましいバイアス分散トレードオフを達成することができる。
ALFWorldとWebShopとQwen2.5-1.5B-InstructとQwen2.5-7B-Instructの2つの難解なエージェントタスクの評価は、HGPOが既存のエージェントRL法を同じ計算制約下で著しく上回っていることを示している。
コードはhttps://github.com/langfengQ/verl-agent/tree/master/recipe/hgpoで公開されている。
関連論文リスト
- iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR [31.43482175098666]
Reinforcement Learning with Verifiable Rewards (RLVR)は,大規模言語モデルを推論タスクで最適化するための,有望なフレームワークを提供する。
既存のRLVRアルゴリズムは様々な粒度に重点を置いており、それぞれに相補的な強度と制限がある。
本稿では, GRPO と GSPO を単一のクリッピングサロゲート対象にブリッジする動的ハイブリッドポリシー最適化 (DHPO) を提案する。
論文 参考訳(メタデータ) (2026-01-09T07:57:40Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation [29.015994347609936]
Group Relative Policy Optimization (GRPO)は、フローマッチングベースのテキスト・ツー・イメージ(T2I)生成に強い可能性を示している。
我々は、最適化のパラダイムをステップレベルからチャンクレベルにシフトすることで、これらの問題を効果的に軽減できると主張している。
Chunk-GRPOは、T2I生成のための最初のチャンクレベルGRPOベースのアプローチである。
論文 参考訳(メタデータ) (2025-10-24T15:50:36Z) - Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。
階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文 参考訳(メタデータ) (2025-09-26T08:43:39Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Group-in-Group Policy Optimization for LLM Agent Training [17.243181792126563]
Group-in-Group Policy Optimization (GiGPO) は、LLMエージェントのきめ細かいクレジット割り当てを実現する新しいRLアルゴリズムである。
我々は, ALFWorld や WebShop などのエージェントベンチマークに対する GiGPO の評価と,検索強化されたQA タスクに対するツール統合推論を行った。
論文 参考訳(メタデータ) (2025-05-16T08:26:59Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。