論文の概要: Efficient RLVR Training via Weighted Mutual Information Data Selection
- arxiv url: http://arxiv.org/abs/2603.01907v1
- Date: Mon, 02 Mar 2026 14:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.905654
- Title: Efficient RLVR Training via Weighted Mutual Information Data Selection
- Title(参考訳): 重み付き相互情報データ選択による効率的なRLVRトレーニング
- Authors: Xinyu Zhou, Boyu Zhu, Haotian Zhang, Huiming Wang, Zhijiang Guo,
- Abstract要約: 強化学習(RL)は、大規模言語モデルの推論とアライメントを改善する上で中心的な役割を果たす。
重み付けされた相互情報目的に基づいて,情報誘導型データSmplinG metHod for RL Trainingを紹介する。
予測された不確実性低減は相補的な難易度と証拠に依存した成分に分解され、難易度のみの選択の根本的な制限が明らかになる。
- 参考スコア(独自算出の注目度): 30.408074538619626
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) plays a central role in improving the reasoning and alignment of large language models, yet its efficiency critically depends on how training data are selected. Existing online selection strategies predominantly rely on difficulty-based heuristics, favouring datapoints with intermediate success rates, implicitly equating difficulty with informativeness and neglecting epistemic uncertainty arising from limited evidence. We introduce InSight, an INformation-guided data SamplInG metHod for RL Training, grounded in a weighted mutual information objective. By modeling data outcomes with Bayesian latent success rates, we show that expected uncertainty reduction decomposes into complementary difficulty- and evidence-dependent components, revealing a fundamental limitation of difficulty-only selection. Leveraging this observation, InSight constructs a stable acquisition score based on the mean belief of datapoints' success rather than noisy sampled outcomes, and naturally extends to multi-rollout settings common in reinforcement learning with verifiable rewards (RLVR). Extensive experiments demonstrate that InSight consistently achieves state-of-the-art performance and improves training efficiency, including a +1.41 average gain on Planning & Mathmatics benchmarks, +1.01 improvement on general reasoning, and up to ~2.2x acceleration, with negligible additional computational overhead.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論とアライメントを改善する上で中心的な役割を果たすが、その効率はトレーニングデータの選択方法に大きく依存する。
既存のオンライン選択戦略は、主に難易度に基づくヒューリスティックに頼り、中間的な成功率でデータポイントを好んでおり、暗黙的に難易度を情報に当てはめ、限られた証拠から生じる疫学的不確実性を無視している。
重み付けされた相互情報目的に基づいて,情報誘導型データSmplinG metHod for RL Trainingを紹介する。
ベイジアン潜伏成功率によるデータ結果のモデル化により、予測不確実性低減は相補的困難成分と証拠依存成分に分解され、難易度のみの選択の根本的な制限が明らかとなる。
この観察を活用して、InSightは、ノイズの多いサンプル結果ではなく、データポイントの成功に対する平均的信念に基づいて安定した獲得スコアを構築し、検証可能な報酬(RLVR)を用いた強化学習で一般的なマルチロールアウト設定に自然に拡張する。
広範な実験により、InSightは一貫して最先端のパフォーマンスを達成し、プランニングと数学のベンチマークにおける+1.41平均ゲイン、一般的な推論における+1.01の改善、最大2.2倍の加速を含む訓練効率を向上させることが示されている。
関連論文リスト
- SG-OIF: A Stability-Guided Online Influence Framework for Reliable Vision Data [6.4391040754741296]
本稿では,テスト予測に対するトレーニングポイントの影響を近似するための安定誘導オンライン影響フレームワーク(SG-OIF)を提案する。
CIFAR-10の上位1%の予測サンプルでは,SG-OIFが91.1%,MNISTの99.8%のAUPRスコアが得られた。
論文 参考訳(メタデータ) (2025-11-21T19:58:54Z) - Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Robust Federated Learning with Confidence-Weighted Filtering and GAN-Based Completion under Noisy and Incomplete Data [0.0]
フェデレートラーニング(FL)は、分散化されたクライアントデータセット間のデータのプライバシを維持しながら、協調的なモデルトレーニングのための効果的なソリューションを提供する。
本研究では,ノイズやクラス不均衡,ラベルの欠落など,データ品質問題に体系的に対処するフェデレート学習手法を提案する。
以上の結果から,この手法はデータ品質の課題を効果的に軽減し,堅牢でスケーラブルでプライバシに適合したソリューションを提供することが示唆された。
論文 参考訳(メタデータ) (2025-05-14T18:49:18Z) - NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [66.36912000442608]
NoisyRolloutは単純だが効果的なデータ拡張手法である。
きれいで適度に歪んだ画像からトレーニングの軌跡を混ぜる。
オープンソースのRLチューニングモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T16:10:13Z) - SeMi: When Imbalanced Semi-Supervised Learning Meets Mining Hard Examples [54.760757107700755]
Semi-Supervised Learning (SSL)は、豊富なラベルのないデータを活用して、モデルのパフォーマンスを向上させる。
実世界のシナリオにおけるクラス不均衡なデータ分散は、SSLに大きな課題をもたらし、結果としてパフォーマンスが低下する。
マイニングハードケース(SeMi)による不均衡半教師学習の性能向上手法を提案する。
論文 参考訳(メタデータ) (2025-01-10T14:35:16Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Stabilizing and Improving Federated Learning with Non-IID Data and
Client Dropout [15.569507252445144]
ラベル分布スキューによるデータヘテロジェニーティは、フェデレート学習におけるモデル性能を制限する重要な障害であることが示されている。
クロスエントロピー損失を計算するための事前校正ソフトマックス関数を導入することで、シンプルで効果的なフレームワークを提案する。
非IIDデータとクライアントドロップアウトの存在下で、既存のベースラインよりも優れたモデル性能を示す。
論文 参考訳(メタデータ) (2023-03-11T05:17:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。