論文の概要: Leveraging Error Diversity in Group Rollouts for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.17333v1
- Date: Sun, 17 May 2026 08:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.363032
- Title: Leveraging Error Diversity in Group Rollouts for Reinforcement Learning
- Title(参考訳): 強化学習のためのグループロールアウトにおける誤り多様性の活用
- Authors: Wenpu Liu, Yuqi Xu, Weichu Xie, Yongfu Zhu, Shuai Dong, Ziyue Wang, Wenqi Shao, Xiaoying Zhang, Tong Yang, Nan Duan, Jiaqi Wang,
- Abstract要約: Reinforcement Learning from Verifiable Rewards (RLVR) は通常、プロンプト毎に複数のレスポンスをサンプリングし、個々の正確性に基づいてバイナリ報酬を割り当てる。
グループ内エラーの多様性に基づいて,不正なロールアウトに対して有利なシグナルを変調するために,EDAS(Error Diversity Advantage Shaping)を提案する。
EDASは、任意のRLVRアルゴリズムにシームレスに統合できるシンプルなポストホック調整として動作する。
- 参考スコア(独自算出の注目度): 61.10980882949414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) typically samples multiple responses per prompt and assigns binary rewards based on individual correctness, yet the collective structure of the group output, specifically the distribution of errors, is largely discarded. We identify this as a missed opportunity: empirical analysis reveals that error diversity within a group is a strong predictor of training success, with problems eliciting diverse wrong answers benefiting substantially more from RLVR than those producing homogeneous failures. Motivated by this observation, we propose Error Diversity Advantage Shaping (EDAS), a lightweight, algorithm-agnostic technique that modulates the advantage signal for incorrect rollouts based on intra-group error diversity. EDAS amplifies penalties for dominant, repeated errors and attenuates penalties for rare, exploratory ones, thereby encouraging the model to maintain diverse reasoning paths and discouraging error perseveration. Crucially, EDAS operates as a simple post-hoc adjustment that can be seamlessly integrated into any RLVR algorithm. We validate EDAS on top of several mainstream RLVR methods across a series of models and seven challenging math benchmarks, demonstrating consistent improvements. Notably, EDAS yields an average improvement of 6.29 points over DAPO on Qwen3-8B across seven benchmarks, confirming that exploiting the latent information in group rollouts is a broadly effective strategy for strengthening RLVR.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR) は通常、プロンプト毎に複数のレスポンスをサンプリングし、個々の正確性に基づいてバイナリ報酬を割り当てるが、グループ出力の集合構造、特にエラーの分布は、ほとんど破棄される。
経験的分析によって、グループ内のエラーの多様性がトレーニングの成功の強力な予測要因であることが明らかになりました。
本研究の目的は,グループ内エラーの多様性に基づいて,不正なロールアウトの利点信号を変調する,アルゴリズムに依存しない軽量な手法であるEDAS(Error Diversity Advantage Shaping)を提案することである。
EDASは、支配的かつ反復的なエラーに対する罰則を増幅し、希少な探索的罰則の罰則を減衰させ、様々な推論経路を維持するようモデルに促し、エラーの持続性を阻害する。
EDASは、どんなRLVRアルゴリズムにもシームレスに統合できるシンプルなポストホック調整として機能する。
EDASを、一連のモデルと7つの挑戦的な数学ベンチマークにまたがって、いくつかの主流RLVRメソッド上で検証し、一貫した改善を実証する。
特に、EDASは、7つのベンチマークでQwen3-8BのDAPOよりも平均6.29ポイント向上し、グループロールアウトにおける潜伏情報の活用がRLVRを強化するための幅広い効果的な戦略であることを確認した。
関連論文リスト
- Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文 参考訳(メタデータ) (2026-05-14T08:22:21Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Learning Self-Correction in Vision-Language Models via Rollout Augmentation [25.49118301476432]
視覚言語モデル(VLM)における推論問題の解決には自己補正が不可欠である
既存の強化学習法(RL)は、効果的な自己補正行動が稀に現れるため、学習に苦慮している。
本稿では,高密度自己補正例を合成するRLロールアウト拡張フレームワークOctopusを提案する。
我々は,制御可能な自己補正機能を備えた推論型VLMであるOctopus-8Bを紹介する。
論文 参考訳(メタデータ) (2026-02-09T10:55:13Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - DARL: Encouraging Diverse Answers for General Reasoning without Verifiers [41.35516261603945]
DARLは、参照から制御された偏差範囲内で多様な回答を生成するための強化学習フレームワークである。
我々のフレームワークは、既存の汎用強化学習手法と完全に互換性があり、追加の検証なしでシームレスに統合できる。
論文 参考訳(メタデータ) (2026-01-21T06:23:55Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Stable and Efficient Single-Rollout RL for Multimodal Reasoning [66.53652874617217]
$textbfMSSR$ (Multimodal Stabilized Single-Rollout)はグループフリーのRLVRフレームワークで、安定した最適化と効果的なマルチモーダル推論性能を実現する。
分散評価では、MSSRはトレーニングの効率が良く、トレーニングの歩数の半分でグループベースベースラインに類似した検証精度を達成できる。
論文 参考訳(メタデータ) (2025-12-20T05:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。