論文の概要: Transform-Augmented GRPO Improves Pass@k
- arxiv url: http://arxiv.org/abs/2601.22478v1
- Date: Fri, 30 Jan 2026 02:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.173815
- Title: Transform-Augmented GRPO Improves Pass@k
- Title(参考訳): Transform-Augmented GRPOがPass@kを改善
- Authors: Khiem Le, Youssef Mroueh, Phuc Nguyen, Chi-Heng Lin, Shangqian Gao, Ting Hua, Nitesh V. Chawla,
- Abstract要約: グループ相対政策最適化(GRPO)は推論を改善するために設計されたが、2つの障害モードによって状況が悪化する。
本稿では,各質問に対して意味論的に等価な変換変種を生成するTA-GRPO(Transform-Augmented GRPO)を提案する。
このプール化された計算は、元の質問が簡単すぎるか難しすぎる場合でも、混合報酬を保証する一方、多様なフレーズのトレーニングは、複数のソリューション戦略を促進する。
- 参考スコア(独自算出の注目度): 50.3707071191733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models trained via next-token prediction are fundamentally pattern-matchers: sensitive to superficial phrasing variations even when the underlying problem is identical. Group Relative Policy Optimization (GRPO) was designed to improve reasoning, but in fact it worsens this situation through two failure modes: diversity collapse, where training amplifies a single solution strategy while ignoring alternatives of gradient signal, and gradient diminishing, where a large portion of questions yield zero gradients because all rollouts receive identical rewards. We propose TA-GRPO (Transform-Augmented GRPO), which generates semantically equivalent transformed variants of each question (via paraphrasing, variable renaming, and format changes) and computes advantages by pooling rewards across the entire group. This pooled computation ensures mixed rewards even when the original question is too easy or too hard, while training on diverse phrasings promotes multiple solution strategies. We provide theoretical justification showing that TA-GRPO reduces zero-gradient probability and improves generalization via reduced train-test distribution shift. Experiments on mathematical reasoning benchmarks show consistent Pass@k improvements, with gains up to 9.84 points on competition math (AMC12, AIME24) and 5.05 points on out-of-distribution scientific reasoning (GPQA-Diamond).
- Abstract(参考訳): 次世代の予測によって訓練された大規模言語モデルは、基本的にパターンマッチングであり、基礎的な問題が同一であっても表面的なフレーズのバリエーションに敏感である。
グループ相対政策最適化(GRPO)は、推論を改善するために設計されたが、実際には、ダイバーシティ崩壊(多様性の崩壊)と、勾配信号の代替を無視しながら単一のソリューション戦略を増幅する、勾配減少(勾配の減少)という2つの障害モードにより、この状況を悪化させる。
本稿では,TA-GRPO(Transform-Augmented GRPO)を提案する。
このプール化された計算は、元の質問が簡単すぎるか難しすぎる場合でも、混合報酬を保証する一方、多様なフレーズのトレーニングは、複数のソリューション戦略を促進する。
TA-GRPOがゼロ段階確率を減らし、列車-試験分布シフトを減らして一般化を向上させることを示す理論的正当性を示す。
数学推論ベンチマークの実験では、Pass@kの改善が一貫し、競争数学(AMC12, AIME24)では9.84点、分布外科学推論(GPQA-Diamond)では5.05点に達した。
関連論文リスト
- GIFT: Group-relative Implicit Fine Tuning Integrates GRPO with DPO and UNA [6.07907277934348]
GIFTはアライメントのための新しい強化学習フレームワークである。
暗黙の報酬モデルと明示的な報酬モデルとの差を最小限にする。
数学的ベンチマークにおいて優れた推論とアライメント性能を達成する。
論文 参考訳(メタデータ) (2025-10-27T21:18:19Z) - FlowRL: Matching Reward Distributions for LLM Reasoning [69.88820066093798]
大規模言語モデル(LLM)強化学習(RL)において、報酬を最大化する代わりに、フローバランシングによる全報酬分布をマッチングするフローRLを提案する。
我々はスカラー報酬を学習可能な分割関数を用いて正規化対象分布に変換し、その後、ポリシーと対象分布との逆KL分散を最小化する。
論文 参考訳(メタデータ) (2025-09-18T17:56:36Z) - EDGE-GRPO: Entropy-Driven GRPO with Guided Error Correction for Advantage Diversity [7.818698554631196]
グループ相対政策最適化 (GRPO) アルゴリズムはスパース報酬規則に依存しており、有利な崩壊問題を引き起こす。
我々は,textbfEntropy-textbfDriven Advantage と textbfGuided textbfError Correction を採用したEDGE-GRPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:23:58Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。