論文の概要: Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation
- arxiv url: http://arxiv.org/abs/2602.05548v1
- Date: Thu, 05 Feb 2026 11:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.900115
- Title: Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation
- Title(参考訳): インシシデント・アドバンテージ・シンメトリーの展開 : GRPOが探索と難易度適応にどう取り組むか
- Authors: Zhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu,
- Abstract要約: グループ相対アドバンテージ推定(GRAE)は、それ固有の暗黙の優位対称性を持つ。
探索インセンティブと試料拡散焦点を動的に変調する非対称GRAEを提案する。
7つのベンチマークでの実験では、A-GRAEはGRPOとその変種をLLMとMLLMの両方で一貫して改善している。
- 参考スコア(独自算出の注目度): 19.404286148401795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR), particularly GRPO, has become the standard for eliciting LLM reasoning. However, its efficiency in exploration and difficulty adaptation remains an open challenge. In this work, we argue that these bottlenecks stem from an implicit advantage symmetry inherent in Group Relative Advantage Estimation (GRAE). This symmetry induces two critical limitations: (i) at the group level, strict symmetry in weights between correct and incorrect trajectories leaves unsampled action logits unchanged, thereby hindering exploration of novel correct solution. (ii) at the sample level, the algorithm implicitly prioritizes medium-difficulty samples, remaining agnostic to the non-stationary demands of difficulty focus. Through controlled experiments, we reveal that this symmetric property is sub-optimal, yielding two pivotal insights: (i) asymmetrically suppressing the advantages of correct trajectories encourages essential exploration. (ii) learning efficiency is maximized by a curriculum-like transition-prioritizing simpler samples initially before gradually shifting to complex ones. Motivated by these findings, we propose Asymmetric GRAE (A-GRAE), which dynamically modulates exploration incentives and sample-difficulty focus. Experiments across seven benchmarks demonstrate that A-GRAE consistently improves GRPO and its variants across both LLMs and MLLMs.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)、特にGRPOはLLM推論の標準となっている。
しかし、探索と難易度適応における効率性は依然として未解決の課題である。
本研究では、これらのボトルネックは、グループ相対アドバンテージ推定(GRAE)に固有の暗黙の優位対称性に由来すると論じる。
この対称性は2つの限界を誘導する。
(i)群レベルでは、正しい軌跡と間違った軌跡の間の重みの厳密な対称性は、アンサンプされた作用対が変化せず、新しい正解の探索を妨げている。
(II) サンプルレベルでは, アルゴリズムは, 中分散サンプルを暗黙的に優先順位付けし, 焦点を絞る非定常要求に非依存的に残す。
制御された実験を通して、この対称性が準最適であることを明らかにする。
(i) 正しい軌道の利点を非対称に抑制することは、本質的な探索を促進する。
(II) 学習効率は, カリキュラム的な遷移優先的な単純なサンプルによって最大化され, より複雑なものへと徐々にシフトする。
これらの知見により,探索インセンティブと試料拡散焦点を動的に調節する非対称GRAE(A-GRAE)を提案する。
7つのベンチマークでの実験では、A-GRAEはGRPOとその変種をLLMとMLLMの両方で一貫して改善している。
関連論文リスト
- SetPO: Set-Level Policy Optimization for Diversity-Preserving LLM Reasoning [50.93295951454092]
本稿では,カーネル化類似性を用いたサンプル軌道上で定義された設定レベル多様性の目的について紹介する。
提案手法は,各サンプル軌跡に対する余剰余剰貢献を導出し,この目的を政策最適化のためのプラグイン・アドバンテージ・シェーピング用語として統合する。
様々なモデルスケールで実験を行い、提案アルゴリズムの有効性を示し、様々なベンチマークでPass@1とPass@Kの双方において、強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-01T07:13:20Z) - TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization [32.17940023097263]
マルチターンツール統合推論により、大規模言語モデル(LLM)は反復情報検索によって複雑なタスクを解くことができる。
探索強化推論のための現在の強化学習(RL)フレームワークは、少ない結果レベルの報酬に依存している。
この問題に対処するために,ターンレベル段階対応政策最適化(TSPO)を提案する。
論文 参考訳(メタデータ) (2026-01-30T09:58:45Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Reinforcement Learning Using known Invariances [54.91261509214309]
本稿では、既知のグループ対称性をカーネルベースの強化学習に組み込むための理論的枠組みを開発する。
対称性を意識したRLは、標準のカーネルよりも大幅に性能が向上することを示す。
論文 参考訳(メタデータ) (2025-11-05T13:56:14Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Joint Asymmetric Loss for Learning with Noisy Labels [95.14298444251044]
対称的な損失は通常、過度に厳格な制約のために不適合な問題に悩まされる。
APL内では、対称的な損失がうまく拡張され、高度なロバストな損失関数が得られた。
JAL(Joint Asymmetric Loss)と呼ばれる新しいロバスト損失フレームワークを導入する。
論文 参考訳(メタデータ) (2025-07-23T16:57:43Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - First-principles construction of symmetry-informed quantum metrologies [0.0]
位置パラメータに同型な量の測定方法のクラスを開発する。
結果のフレームワークは、パラメータ範囲、事前情報、状態を認めます。
これは、どの対称性が最大の無知不変状態を残しているかを特定するための良い戦略の探索を減らす。
論文 参考訳(メタデータ) (2024-02-26T09:06:37Z) - Smoothness Adaptive Hypothesis Transfer Learning [8.557392136621894]
Smoothness Adaptive Transfer Learning (SATL) は、2相のカーネルリッジ回帰(KRR)に基づくアルゴリズムである。
我々はまず、ターゲットのみのKRR学習において、不特定な固定帯域幅ガウスカーネルを用いることで、最小限の最適性が得られることを証明した。
我々は,学習問題の極小境界を過度なリスクで導出し,SATLが対数係数までの一致した上限を享受していることを示す。
論文 参考訳(メタデータ) (2024-02-22T21:02:19Z) - Symmetric Neural-Collapse Representations with Supervised Contrastive
Loss: The Impact of ReLU and Batching [26.994954303270575]
スーパーバイザード・コントラスト・ロス(SCL)は、分類におけるクロスエントロピー・ロスの代わりとして、競争力があり、しばしば優れた選択肢である。
従来の研究では、両方の損失がバランスデータの下で対称的なトレーニング表現をもたらすことが示されているが、この対称性はクラス不均衡の下で破れる。
最終層におけるReLU活性化の導入は,SCL学習表現の対称性を効果的に回復させる。
論文 参考訳(メタデータ) (2023-06-13T17:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。