論文の概要: Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO
- arxiv url: http://arxiv.org/abs/2605.30789v2
- Date: Tue, 02 Jun 2026 09:15:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.250783
- Title: Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO
- Title(参考訳): GRPOにおける政策レベル多様性の自然エクスプローラー
- Authors: Yiming Ren, Yiran Xu, Zicheng Lin, Chufan Shi, Yukang Chen, Dingdong Wang, Tianhe Wu, Junjie Wang, Yujiu Yang, Yu Qiao, Ruihang Chu,
- Abstract要約: サンプル数が増加するにつれて、小さなモデルは本質的に、より優れたパス@kによって示されるポリシーレベルの多様性を示す。
本研究では,S2L-PO(Small-to-Large Policy Optimization)を提案する。
S2L-POは、様々な数学的推論ベンチマーク(例えば、AIME 24で1.7Bエクスプローラーを使用して8Bモデルをガイドする+8.8%)の精度を改善し、ロールアウト計算を削減している。
- 参考スコア(独自算出の注目度): 80.3917290909154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify a new dimension for enhancing rollout diversity in Group Relative Policy Optimization (GRPO) for LLMs. While GRPO relies on diverse rollouts, prevailing strategies primarily increase diversity by injecting more token-level randomness, which may introduce step-wise noise and lead to incoherent trajectories. We uncover that smaller models within the same model family inherently exhibit higher policy-level diversity, indicated by their superior pass@k relative to larger counterparts as sample counts increase. Unlike token-level noise, this diversity is temporally correlated, preserves logical consistency, and provides structured exploration signals for gradient estimation. We thus propose S2L-PO (Small-to-Large Policy Optimization), a framework that leverages fixed small models as natural explorers to train larger models. To balance exploration and exploitation, we design a progressive annealing strategy that transitions from offline small-model rollouts to the large learner's own sampling. This shift elegantly avoids mid-training performance drops caused by the small model's capacity limits, achieving faster convergence and unlocking a higher performance ceiling. S2L-PO improves accuracy on diverse mathematical reasoning benchmarks (e.g., +8.8% on AIME 24 using a 1.7B explorer to guide the 8B model) while reducing rollout compute.
- Abstract(参考訳): LLMのためのグループ相対政策最適化(GRPO)におけるロールアウト多様性を高めるための新しい次元を同定する。
GRPOは多様なロールアウトに依存しているが、一般的な戦略は、よりトークンレベルのランダム性を注入することで多様性を増大させる。
サンプル数の増加に伴い,同じモデルファミリー内のより小さなモデルでは,より優れたパス@kで示される,ポリシレベルの多様性が本質的に向上することが判明した。
トークンレベルのノイズとは異なり、この多様性は時間的に相関し、論理的一貫性を保持し、勾配推定のための構造化された探索信号を提供する。
そこで我々は,S2L-PO(Small-to-Large Policy Optimization)を提案する。
探索と搾取のバランスをとるために,オフラインの小型モデルロールアウトから大規模学習者自身のサンプリングへ移行するプログレッシブアニール方式を設計する。
このシフトは、小型モデルのキャパシティ制限による中級トレーニングのパフォーマンス低下をエレガントに回避し、より高速な収束を実現し、より高いパフォーマンス天井をアンロックする。
S2L-POは、ロールアウト計算を削減しつつ、様々な数学的推論ベンチマーク(例えば、AIME 24では1.7Bエクスプローラーを使用して8.8%)の精度を改善する。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks [81.07598709704628]
標準線形スケーリングを非線形分布マッチングに置き換える新しいRLトレーニング目標を提案する。
また、高度に堅牢で汎用的なマルチモーダルモデルであるOpenVLThinkerV2を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:39Z) - Policy-based Tuning of Autoregressive Image Models with Instance- and Distribution-Level Rewards [16.135177543347773]
自己回帰モデル(AR)は画像生成に非常に効果的であるが、標準の最大形推定トレーニングではサンプルの品質と多様性を直接最適化することができない。
本稿では,トークンベースのAR推論をマルコフ決定プロセスとして,グループ相対ポリシー最適化によって最適化した軽量なRLフレームワークを提案する。
私たちの中核的な貢献は、新しい流通レベルのLeave-One-Out FID(LOO-FID)の報酬の導入です。
論文 参考訳(メタデータ) (2026-03-24T11:28:36Z) - Adaptive Divergence Regularized Policy Optimization for Fine-tuning Generative Models [31.470613363668672]
Adaptive Divergence Regularized Policy Optimization (Adaptive Divergence Regularized Policy Optimization) は、有利な推定値に基づいて正規化強度を自動的に調整する。
We implementation with Wasserstein-2 regularization for flow matching generative model is achieved great results on text-to-image generation。
ADRPOはテキストのみのLLMとマルチモーダル推論モデルの両方をKL規則化された微調整に一般化する。
論文 参考訳(メタデータ) (2025-10-20T19:46:02Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO [22.00487909203855]
グループ相対ポリシー最適化は、グループ内のすべてのレスポンスが正しくない場合にポリシーを更新できない。
この制限は、人工知能と人間の知性の間に重要なギャップを浮き彫りにする。
グループ内に応答の多様性を取り入れることで、全負のサンプル問題を緩和するシンプルなフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。