論文の概要: AMIR-GRPO: Inducing Implicit Preference Signals into GRPO
- arxiv url: http://arxiv.org/abs/2601.03661v1
- Date: Wed, 07 Jan 2026 07:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.149261
- Title: AMIR-GRPO: Inducing Implicit Preference Signals into GRPO
- Title(参考訳): AMIR-GRPO:Implicit Preference SignalsをGRPOに誘導する
- Authors: Amir Hossein Yari, Fajri Koto,
- Abstract要約: 強化学習は、複雑な推論タスクにおいて、大きな言語モデルを整合させる主要なパラダイムとなっている。
GRPOは大規模なポストトレーニングで広く使用されているが、推論と重大な設定では構造的な制限に直面している。
AMIR-GRPOは、グループ内報酬ランキングから直接構築された暗黙のDPOスタイルのコントラスト正規化器でGRPOを増強する。
- 参考スコア(独自算出の注目度): 15.759757442328388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has become the primary paradigm for aligning large language models (LLMs) on complex reasoning tasks, with group relative policy optimization (GRPO) widely used in large-scale post-training. However, GRPO faces structural limitations in reasoning-heavy settings: sequence-level advantage normalization introduces systematic length bias, penalties for low-quality trajectories are diluted, and the scalar objective discards rich pairwise preference information embedded in within-group reward rankings. As a result, valuable supervision from costly rollouts remains underutilized. We propose AMIR-GRPO, which augments GRPO with an implicit DPO-style contrastive regularizer constructed directly from intra-group reward rankings, requiring no additional annotations. This mechanism amplifies suppression of low-reward trajectories, attenuates response-level length bias, and transforms each rollout group into a denser set of supervision constraints. Across multiple mathematical reasoning benchmarks, AMIR-GRPO consistently outperforms strong GRPO baselines, yields clearer separation between correct and incorrect reasoning chains, and delivers broader coverage gains beyond the subset of instances solved by standard GRPO.
- Abstract(参考訳): 強化学習は複雑な推論タスクにおいて大規模言語モデル(LLM)を整合させる主要なパラダイムとなり、グループ相対政策最適化(GRPO)は大規模ポストトレーニングで広く利用されている。
しかし、GRPOは推論と重大な設定において構造的な制限に直面している: シーケンスレベルの優位な正規化は、体系的な長さバイアスを導入し、低品質な軌道に対する罰則は希薄化し、スカラー目的は、グループ内の報酬ランキングに埋め込まれたリッチなペアワイズ情報を捨てる。
結果として、コストのかかるロールアウトからの貴重な監視は未利用のままである。
グループ内報酬ランキングから直接構築された暗黙のDPOスタイルのコントラストレギュレータでGRPOを増強するAMIR-GRPOを提案する。
この機構は低逆軌道の抑制を増幅し、応答レベルの長さバイアスを減衰させ、各ロールアウト群をより厳密な監督制約セットに変換する。
複数の数学的推論ベンチマークを通じて、AMIR-GRPOは強いGRPOベースラインを一貫して上回り、正しい推論チェーンと間違った推論チェーンの分離をより明確にし、標準GRPOによって解決されたインスタンスのサブセットを超えて広範なカバレッジゲインを提供する。
関連論文リスト
- DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models [3.0763741715155666]
我々は,MGRPO(Multi-layer GRPO)を提案する。
MGRPOは標準GRPOを著しく上回り、推論能力と自己補正能力の両方を育成することで優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-05T08:27:34Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [50.91849555841057]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
DisCO は GRPO と DAPO などの改良型を著しく上回り、GRPO の7%、DAPO の6% を平均的に上回っている。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。