論文の概要: Group-in-Group Policy Optimization for LLM Agent Training
- arxiv url: http://arxiv.org/abs/2505.10978v1
- Date: Fri, 16 May 2025 08:26:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.293217
- Title: Group-in-Group Policy Optimization for LLM Agent Training
- Title(参考訳): LLMエージェント訓練のためのグループ間政策最適化
- Authors: Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An,
- Abstract要約: Group-in-Group Policy Optimization (GiGPO) は、LLMエージェントのきめ細かいクレジット割り当てを実現する新しいRLアルゴリズムである。
我々は、Qwen2.5-1.5B-InstructとQwen2.5-7B-Instructを用いて、ALFWorldとWebShopという2つの挑戦的エージェントベンチマーク上でGiGPOを評価した。
- 参考スコア(独自算出の注目度): 14.179593951503676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in group-based reinforcement learning (RL) have driven frontier large language models (LLMs) in single-turn tasks like mathematical reasoning. However, their scalability to long-horizon LLM agent training remains limited. Unlike static tasks, agent-environment interactions unfold over many steps and often yield sparse or delayed rewards, making credit assignment across individual steps significantly more challenging. In this work, we propose Group-in-Group Policy Optimization (GiGPO), a novel RL algorithm that achieves fine-grained credit assignment for LLM agents while preserving the appealing properties of group-based RL: critic-free, low memory, and stable convergence. GiGPO introduces a two-level structure for estimating relative advantage: (i) At the episode-level, GiGPO computes macro relative advantages based on groups of complete trajectories; (ii) At the step-level, GiGPO introduces an anchor state grouping mechanism that retroactively constructs step-level groups by identifying repeated environment states across trajectories. Actions stemming from the same state are grouped together, enabling micro relative advantage estimation. This hierarchical structure effectively captures both global trajectory quality and local step effectiveness without relying on auxiliary models or additional rollouts. We evaluate GiGPO on two challenging agent benchmarks, ALFWorld and WebShop, using Qwen2.5-1.5B-Instruct and Qwen2.5-7B-Instruct. Crucially, GiGPO delivers fine-grained per-step credit signals and achieves performance gains of > 12\% on ALFWorld and > 9\% on WebShop over the GRPO baseline: all while maintaining the same GPU memory overhead, identical LLM rollout, and incurring little to no additional time cost.
- Abstract(参考訳): グループベース強化学習(RL)の最近の進歩は、数学的推論のような単一ターンタスクにおいて、フロンティア大言語モデル(LLM)を駆動している。
しかし、LLMエージェントトレーニングへのスケーラビリティは依然として限られている。
静的タスクとは異なり、エージェントと環境の相互作用は多くのステップに展開し、しばしばスパースや遅延した報酬をもたらす。
本稿では,グループベースRLの魅力を保ちつつ,LLMエージェントのきめ細かなクレジット割り当てを実現する新しいRLアルゴリズムであるグループ・イン・グループ・ポリシー・最適化(GiGPO)を提案する。
GiGPOは相対的な優位性を推定するための2段階構造を導入している。
一 エピソードレベルでは、完全軌道群に基づくマクロ相対的優位性を計算すること。
ステップレベルでは、GGPOはステップレベルのグループを遡及的に構築するアンカー状態グループ機構を導入し、トラジェクトリをまたいだ繰り返し環境状態を特定します。
同じ状態から生じる行動はグループ化され、マイクロ相対的優位性の推定が可能となる。
この階層構造は、補助モデルや追加ロールアウトに頼ることなく、グローバルな軌道品質と局所的なステップの有効性の両方を効果的にキャプチャする。
我々は、Qwen2.5-1.5B-InstructとQwen2.5-7B-Instructを用いて、ALFWorldとWebShopという2つの挑戦的エージェントベンチマーク上でGiGPOを評価した。
重要な点として、GGPOはステップ単位の詳細なクレジット信号を提供し、ALFWorldでは > 12\%、GRPOベースラインでは WebShopでは > 9\% のパフォーマンス向上を実現している。
関連論文リスト
- Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Low-Rank Agent-Specific Adaptation (LoRASA) for Multi-Agent Policy Learning [3.333453555166201]
マルチエージェント強化学習(MARL)は、効率的にスケールするために、エフェムパラメータ共有(PS)に依存することが多い。
我々は,各エージェントのポリシーを,共有バックボーンから微調整した特別タスクとして扱う新しいアプローチである textbfLow-Rank Agent-Specific Adaptation (LoRASA) を提案する。
我々は、StarCraft Multi-Agent Challenge (SMAC)やMulti-Agent MuJoCo (MAMuJoCo)といった挑戦的なベンチマークでLoRASAを評価する。
論文 参考訳(メタデータ) (2025-02-08T13:57:53Z) - SDPO: Segment-Level Direct Preference Optimization for Social Agents [56.970902914217156]
大規模言語モデル(LLM)を利用した社会エージェントは、人間の社会的振る舞いをシミュレートできるが、複雑な社会対話を扱うには不十分である。
マルチターンエージェントの動作を最適化するために,対話内のキーセグメントを動的に選択するセグメントレベル直接参照最適化(SDPO)を提案する。
論文 参考訳(メタデータ) (2025-01-03T14:09:46Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - MASP: Scalable GNN-based Planning for Multi-Agent Navigation [18.70078556851899]
Multi-Agent Scalable Graph-based Planner (MASP)は、ナビゲーションタスクのためのゴール条件付き階層型プランナーである。
MASPは、大規模な探索空間を複数の目標条件付き部分空間に分解することで、空間の複雑さを低減するために階層的なフレームワークを採用している。
エージェントの協力とさまざまなチームサイズへの適応のために、エージェントと目標をグラフとしてモデル化し、それらの関係をよりよく捉えます。
論文 参考訳(メタデータ) (2023-12-05T06:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。