論文の概要: Data-Efficient RLVR via Off-Policy Influence Guidance
- arxiv url: http://arxiv.org/abs/2510.26491v1
- Date: Thu, 30 Oct 2025 13:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.837318
- Title: Data-Efficient RLVR via Off-Policy Influence Guidance
- Title(参考訳): オフ・ポリシック・インフルエンス・ガイダンスによるデータ効率の良いRLVR
- Authors: Erle Zhu, Dazhi Jiang, Yuan Wang, Xujun Li, Jiale Cheng, Yuxian Gu, Yilin Niu, Aohan Zeng, Jie Tang, Minlie Huang, Hongning Wang,
- Abstract要約: 本研究は,学習目標に対する各データポイントの寄与を推定するために,影響関数を用いた理論的基礎的アプローチを提案する。
textbfCurriculum textbfRL with textbfOff-textbfPolicy textInfluence Guide (textbfCROPI) は多段階のRLフレームワークで、現在のポリシーにおいて最も影響力のあるデータを反復的に選択する。
- 参考スコア(独自算出の注目度): 84.60336960383867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data selection is a critical aspect of Reinforcement Learning with Verifiable Rewards (RLVR) for enhancing the reasoning capabilities of large language models (LLMs). Current data selection methods are largely heuristic-based, lacking theoretical guarantees and generalizability. This work proposes a theoretically-grounded approach using influence functions to estimate the contribution of each data point to the learning objective. To overcome the prohibitive computational cost of policy rollouts required for online influence estimation, we introduce an off-policy influence estimation method that efficiently approximates data influence using pre-collected offline trajectories. Furthermore, to manage the high-dimensional gradients of LLMs, we employ sparse random projection to reduce dimensionality and improve storage and computation efficiency. Leveraging these techniques, we develop \textbf{C}urriculum \textbf{R}L with \textbf{O}ff-\textbf{P}olicy \text{I}nfluence guidance (\textbf{CROPI}), a multi-stage RL framework that iteratively selects the most influential data for the current policy. Experiments on models up to 7B parameters demonstrate that CROPI significantly accelerates training. On a 1.5B model, it achieves a 2.66x step-level acceleration while using only 10\% of the data per stage compared to full-dataset training. Our results highlight the substantial potential of influence-based data selection for efficient RLVR.
- Abstract(参考訳): データ選択は、大規模言語モデル(LLM)の推論能力を高めるために、RLVR(Reinforcement Learning with Verifiable Rewards)の重要な側面である。
現在のデータ選択法は概ねヒューリスティック的であり、理論的な保証と一般化性に欠ける。
本研究は,学習目標に対する各データポイントの寄与を推定するために,影響関数を用いた理論的基礎的アプローチを提案する。
オンラインインフルエンス推定に必要なポリシロールアウトの禁止的な計算コストを克服するため,プリコンパイルされたオフライントラジェクトリを用いて,データインフルエンスを効率的に近似する外部インフルエンス推定手法を提案する。
さらに, LLMの高次元勾配を管理するために, スパースランダムプロジェクションを用い, 寸法の低減と保存・計算効率の向上を図る。
これらの手法を応用して、現在のポリシーにおいて最も影響力のあるデータを反復的に選択する多段階RLフレームワークである \textbf{C}urriculum \textbf{R}L を \textbf{O}ff-\textbf{P}olicy \text{I}nfluence guidance (\textbf{CROPI}) を用いて開発する。
7Bパラメータまでのモデル実験では、CROPIがトレーニングを著しく加速することが示された。
1.5Bモデルでは、2.66倍のステップレベルの加速を実現し、フルデータセットのトレーニングに比べて1ステージあたりのデータの割合はわずか10%である。
この結果から,効率的なRLVRのための影響ベースのデータ選択の可能性が浮き彫りになった。
関連論文リスト
- Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - LearnAlign: Reasoning Data Selection for Reinforcement Learning in Large Language Models Based on Improved Gradient Alignment [14.655048266761783]
強化学習(Reinforcement Learning, RL)は、LLMの推論能力を高めるための重要な技術となっているが、そのデータ非効率性は依然として大きなボトルネックとなっている。
本稿では、RL後学習のための学習可能および代表的トレーニング推論データを知的に選択するLearnerAlignを提案する。
3つの数学的推論ベンチマークによる実験により,本手法はトレーニングデータ要求を大幅に低減することが示された。
論文 参考訳(メタデータ) (2025-06-13T06:05:58Z) - The Impact of On-Policy Parallelized Data Collection on Deep Reinforcement Learning Networks [12.82803159923457]
データ収集のための並列アクターは、強化学習アルゴリズムで使用される効果的なテクニックである。
我々は並列アクターを用いた最も人気のあるRLアルゴリズムの1つであるPPO上のトレードオフを実証分析する。
分析の結果,データセットのサイズが大きくなれば,さまざまな設定で最終的なパフォーマンスが向上する可能性が示唆された。
論文 参考訳(メタデータ) (2025-06-03T21:27:17Z) - ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment [94.36403843133616]
人間の好みを使って大きな言語モデル(LLM)を整列させると、さまざまな下流タスクのパフォーマンスが大幅に向上する。
既存の方法には強い理論的な基礎が欠けているか、制限的な報酬関数の仮定に依存している。
非線型報酬関数に対して理論的に基底化されたデータ選択基準を用いるアルゴリズムであるActiveDPOを提案する。
論文 参考訳(メタデータ) (2025-05-25T17:42:52Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - UFO-RL: Uncertainty-Focused Optimization for Efficient Reinforcement Learning Data Selection [42.9272996371658]
単一パス不確実性推定は、インフォメーションデータインスタンスを識別するために使用され、最大185倍高速なデータ評価を実現する。
UFO-RLによって選択されたデータのわずか10%のトレーニングは、完全なデータトレーニングに匹敵するか、それ以上のパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2025-05-18T15:14:58Z) - ALinFiK: Learning to Approximate Linearized Future Influence Kernel for Scalable Third-Party LLM Data Valuation [11.36712576361739]
大規模言語モデル(LLM)は、高品質なトレーニングデータに大きく依存しているため、モデルパフォーマンスの最適化にデータバリュエーションが不可欠である。
個々のデータサンプルの値を評価する線形化後の影響カーネル(LinFiK)を導入する。
我々は、LinFiKを近似する学習戦略であるALinFiKを提案し、スケーラブルなデータバリュエーションを実現する。
論文 参考訳(メタデータ) (2025-03-02T22:51:12Z) - Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:59:47Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。