論文の概要: GEAR: Granularity-Adaptive Advantage Reweighting for LLM Agents via Self-Distillation
- arxiv url: http://arxiv.org/abs/2605.11853v2
- Date: Thu, 14 May 2026 10:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 15:19:49.89362
- Title: GEAR: Granularity-Adaptive Advantage Reweighting for LLM Agents via Self-Distillation
- Title(参考訳): GEAR: 自己蒸留によるLLM剤の粒度適応型アドバンテージリヘアリング
- Authors: Sijia Li, Yuchen Huang, Zifan Liu, Yanping Li, Jingjing Fu, Li Zhao, Jiang Bian, Ling Zhang, Jun Zhang, Rui Wang,
- Abstract要約: Granularity-AdaptivE Advantage Reweightingはトークンレベルの信号とセグメントレベルの信号を使って、軌跡レベルのGRPOの利点を再評価する。
GEARは、標準のGRPO、自己蒸留のみのベースライン、トークンまたはターンレベルのクレジット割り当てメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 33.370957547486775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has become a widely used post-training approach for LLM agents, where training commonly relies on outcome-level rewards that provide only coarse supervision. While finer-grained credit assignment is promising for effective policy updates, obtaining reliable local credit and assigning it to the right parts of the long-horizon trajectory remains an open challenge. In this paper, we propose Granularity-adaptivE Advantage Reweighting (GEAR), an adaptive-granularity credit assignment framework that reshapes the trajectory-level GRPO advantage using token- and segment-level signals derived from self-distillation. GEAR compares an on-policy student with a ground-truth-conditioned teacher to obtain a reference-guided divergence signal for identifying adaptive segment boundaries and modulating local advantage weights. This divergence often spikes at the onset of a semantic deviation, while later tokens in the same autoregressive continuation may return to low divergence. GEAR therefore treats such spikes as anchors for adaptive credit regions: where the student remains aligned with the teacher, token-level resolution is preserved; where it departs, GEAR groups the corresponding continuation into an adaptive segment and uses the divergence at the departure point to modulate the segment' s advantage. Experiments across eight mathematical reasoning and agentic tool-use benchmarks with Qwen3 4B and 8B models show that GEAR consistently outperforms standard GRPO, self-distillation-only baselines, and token- or turn-level credit-assignment methods. The gains are especially strong on benchmarks with lower GRPO baseline accuracy, reaching up to around 20\% over GRPO, suggesting that the proposed adaptive reweighting scheme is especially useful in more challenging long-horizon settings.
- Abstract(参考訳): 強化学習はLLMエージェントの訓練後アプローチとして広く使われており、トレーニングは通常、粗い監督のみを提供する結果レベルの報酬に頼っている。
よりきめ細かいクレジット割り当ては効果的な政策更新を約束するが、信頼できるローカルクレジットを取得し、長い水平軌道の正しい部分に割り当てることは、依然としてオープンな課題である。
本稿では,自己蒸留から導出されるトークンレベルおよびセグメントレベル信号を用いて,軌道レベルGRPOの利点を再評価する適応粒度信用割当フレームワークであるグラニュラリティ・アダプティブEアドバンテージ・リハイトリング(GEAR)を提案する。
GEARは、現場の学生と地味な教師を比較して、適応的なセグメント境界を識別し、局所的な有利な重みを調節する基準誘導発散信号を得る。
この発散は意味的偏差の開始時にしばしばスパイクするが、後に同じ自己回帰連続におけるトークンは発散が低くなる。
したがって、GEARはこれらのスパイクを適応的な信用領域のアンカーとして扱う: 学生が教師と整列し続けている場合、トークンレベルの解決は保持される; GEARは、対応する継続を適応セグメントにグループ化し、セグメントの利点を変調するために出発点での発散を使用する。
Qwen3 4B と 8B モデルによる8つの数学的推論およびエージェントツール使用ベンチマークによる実験により、GEAR は標準GRPO、自己蒸留のみのベースライン、トークンレベルまたはターンレベルのクレジット割り当て手法を一貫して上回っていることが示された。
特にGRPOベースライン精度の低いベンチマークでは、GRPOよりも最大で20倍の精度で上昇し、提案された適応的再重み付けスキームは、より困難なロングホライゾン設定において特に有用であることが示唆されている。
関連論文リスト
- Hidden States Know Where Reasoning Diverges: Credit Assignment via Span-Level Wasserstein Distance [8.66471442661456]
隠れ状態分布は局所的推論品質に有用な信号を含むことを示す。
各GRPO群では, 局所的推論品質が変動する領域を中心に, スパンレベル隠れ状態分布間のワッサースタイン距離が増加する。
textbfSpan-level textbfHidden state textbfEd textbfAdvantage textbfReweightingを提案する。
論文 参考訳(メタデータ) (2026-04-25T14:11:23Z) - WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文 参考訳(メタデータ) (2026-02-19T02:43:35Z) - From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。
RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-30T15:07:06Z) - Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - AMIR-GRPO: Inducing Implicit Preference Signals into GRPO [15.759757442328388]
強化学習は、複雑な推論タスクにおいて、大きな言語モデルを整合させる主要なパラダイムとなっている。
GRPOは大規模なポストトレーニングで広く使用されているが、推論と重大な設定では構造的な制限に直面している。
AMIR-GRPOは、グループ内報酬ランキングから直接構築された暗黙のDPOスタイルのコントラスト正規化器でGRPOを増強する。
論文 参考訳(メタデータ) (2026-01-07T07:22:58Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。