論文の概要: Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals
- arxiv url: http://arxiv.org/abs/2506.02281v1
- Date: Mon, 02 Jun 2025 21:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.096292
- Title: Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals
- Title(参考訳): アングルは嘘をつかない:モデルの信号を通して訓練効率の良いRLをアンロックする
- Authors: Qinsi Wang, Jinghan Ke, Hancheng Ye, Yueqian Lin, Yuzhe Fu, Jianyi Zhang, Kurt Keutzer, Chenfeng Xu, Yiran Chen,
- Abstract要約: 大規模言語モデル(LLM)のためのRFTパラダイムは、均一なデータサンプリングの下で同じクエリが冗長に露出するため、効率が悪い。
グラディエント駆動型アングルインフォームドナビゲーションRLフレームワークを提案する。
モデル固有の角度集中信号を利用することで、GAIN-RLは各エポックにおけるトレーニングデータを動的に選択し、一貫したインパクトのある勾配更新を確実にする。
- 参考スコア(独自算出の注目度): 32.59586077266883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Reinforcement Fine-tuning (RFT) paradigms for Large Language Models (LLMs) suffer from sample inefficiency due to the redundant exposure of identical queries under uniform data sampling. While previous work has explored curriculum learning via heuristic difficulty metrics, these strategies exhibit limitations by neglecting the intrinsic learning signals generated by the model itself, thus leading to suboptimal training regimes. In this paper, we identify a model-inherent signal termed angle concentration that effectively reflects an LLM's capacity to learn from specific data. We theoretically and empirically demonstrate a correlation between the angular distribution of token hidden state vectors and the resulting gradient, revealing a learning preference for data exhibiting higher angle concentration. Inspired by this finding, we propose GAIN-RL, a Gradient-driven Angle-Informed Navigated RL framework. By leveraging the model's intrinsic angle concentration signal, GAIN-RL dynamically selects training data in each epoch, ensuring consistently impactful gradient updates and thus significantly enhancing overall training efficiency. Empirical evaluations show that GAIN-RL (GRPO) achieves over a 2.5x acceleration in training efficiency across diverse mathematical and coding tasks and varying model scales. Furthermore, GAIN-RL (GRPO)'s efficient sampling yields data-efficient training, achieving better performance with half the original data compared to vanilla GRPO with full training data. Code is realsed at https://github.com/wangqinsi1/GAINRL/tree/main.
- Abstract(参考訳): 大規模言語モデル(LLM)のRFT(Reinforcement Fine-tuning)パラダイムは、一様データサンプリングによる同一クエリの冗長な露出により、サンプル非効率に悩まされる。
これまでの研究は、ヒューリスティックな難易度測定によるカリキュラム学習を探求してきたが、これらの戦略は、モデル自体が生み出す本質的な学習信号を無視することで限界を示し、それによって準最適教育体制へと繋がる。
本稿では,LLMの特定のデータから学習する能力を効果的に反映したモデル独立性信号である角度濃度を同定する。
我々は,トークン隠蔽状態ベクトルの角分布と結果として生じる勾配との相関を理論的,実証的に実証し,高い角度濃度を示すデータに対する学習嗜好を明らかにした。
この発見にインスパイアされたGAIN-RLは、勾配駆動型角インフォームドナビゲーションRLフレームワークである。
GAIN-RLは、モデル固有の角度集中信号を活用することにより、各エポックにおけるトレーニングデータを動的に選択し、一貫した影響のある勾配更新を確実にし、全体的なトレーニング効率を大幅に向上させる。
実験的な評価の結果,GAIN-RL(GRPO)は様々な数学的およびコーディングタスクと様々なモデルスケールで,トレーニング効率の2.5倍の高速化を実現している。
さらに、GAIN-RL(GRPO)の効率的なサンプリングにより、データ効率のトレーニングが得られ、完全なトレーニングデータを持つバニラGRPOと比較して、元のデータの半分でパフォーマンスが向上する。
コードはhttps://github.com/wangqinsi1/GAINRL/tree/mainで実現されている。
関連論文リスト
- A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [37.62558445850573]
オンラインRLトレーニングのためのアルゴリズム,反復的影響に基づくフィルタリング(IIF)を提案する。
IIFはサンプルの複雑さを減らし、トレーニングをスピードアップし、より高いリターンを達成する。
これらの結果は、オンラインRLの解釈可能性、効率、有効性を向上させる。
論文 参考訳(メタデータ) (2025-05-25T19:25:57Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Flow-GRPO: Training Flow Matching Models via Online RL [75.70017261794422]
本稿では,オンライン強化学習(RL)をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では, 1 つの主要な戦略を用いる:(1) 決定論的正規方程式 (ODE) を, 1 つの時点における原モデルの限界分布に一致する等価な微分方程式 (SDE) に変換するODE-to-SDE 変換と、(2) 元の推論タイムステップ数を保ちながらトレーニングの段階を減らし,
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。
具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。
Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文 参考訳(メタデータ) (2025-01-22T04:01:17Z) - The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning [8.36595587335589]
視覚強化学習法は、しばしば大量のデータを必要とする。
モデルベースRL(MBRL)は、プランニングによる効率的なデータ利用の潜在的なソリューションを提供する。
MBRLには現実世界のタスクの一般化機能が欠けている。
論文 参考訳(メタデータ) (2024-11-15T13:21:26Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。