論文の概要: Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay
- arxiv url: http://arxiv.org/abs/2506.05316v1
- Date: Thu, 05 Jun 2025 17:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.88428
- Title: Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay
- Title(参考訳): 難解なオンラインデータ選択とロールアウト再生によるLLM強化微細調整のためのデータ効率の改善
- Authors: Yifan Sun, Jingyan Shen, Yibin Wang, Tianyu Chen, Zhendong Wang, Mingyuan Zhou, Huan Zhang,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。
LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。
本手法は,RLの微調整時間を25%から65%削減し,GRPOアルゴリズムと同等の性能を実現する。
- 参考スコア(独自算出の注目度): 61.823835392216544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become an effective approach for fine-tuning large language models (LLMs), particularly to enhance their reasoning capabilities. However, RL fine-tuning remains highly resource-intensive, and existing work has largely overlooked the problem of data efficiency. In this paper, we propose two techniques to improve data efficiency in LLM RL fine-tuning: difficulty-targeted online data selection and rollout replay. We introduce the notion of adaptive difficulty to guide online data selection, prioritizing questions of moderate difficulty that are more likely to yield informative learning signals. To estimate adaptive difficulty efficiently, we develop an attention-based framework that requires rollouts for only a small reference set of questions. The adaptive difficulty of the remaining questions is then estimated based on their similarity to this set. To further reduce rollout cost, we introduce a rollout replay mechanism that reuses recent rollouts, lowering per-step computation while maintaining stable updates. Extensive experiments across 6 LLM-dataset combinations show that our method reduces RL fine-tuning time by 25% to 65% to reach the same level of performance as the original GRPO algorithm.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 大規模言語モデル(LLM)の微調整において, 特に推論能力の向上に有効なアプローチとなっている。
しかし、RLファインチューニングは非常にリソース集約的であり、既存の研究はデータ効率の問題をほとんど見落としている。
本稿では,LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。
本稿では、オンラインデータ選択を誘導する適応困難の概念を導入し、情報的学習信号が得られる可能性が高い適度な難問を優先順位付けする。
適応的難易度を効率的に推定するために,少数の質問のみに対するロールアウトを必要とする注目ベースのフレームワークを開発する。
残りの質問の適応的難しさは、この集合との類似性に基づいて推定される。
ロールアウトコストをさらに削減するため,最近のロールアウトを再利用するロールアウト再生機構を導入し,安定した更新を維持しつつ,ステップ単位の計算量を削減した。
その結果,従来のGRPOアルゴリズムと同等の性能を実現するため,RLの微調整時間を25%から65%削減できることがわかった。
関連論文リスト
- TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Enhancing Efficiency and Exploration in Reinforcement Learning for LLMs [12.087316618902433]
大型言語モデル(LLM)の推論は複雑なタスクに優れている。
既存のアプローチでは、強化学習(RL)中に全ての質問に同じ数のロールアウトを割り当てている。
本稿では,問題の難易度に基づいて動的にロールアウト予算を割り当てる機構を提案する。
論文 参考訳(メタデータ) (2025-05-24T07:28:29Z) - LLM-Independent Adaptive RAG: Let the Question Speak for Itself [47.60917219813637]
大型言語モデル (LLM) は幻覚を起こす傾向があり、検索型拡張生成 (RAG) がこれを助けているが、誤報のリスクが高い計算コストが高い。
本研究では,外部情報に基づく軽量LLM非依存適応検索手法を提案する。
論文 参考訳(メタデータ) (2025-05-07T08:58:52Z) - Efficient Reinforcement Learning by Guiding Generalist World Models with Non-Curated Data [32.7248232143849]
オフラインデータの活用は、オンライン強化学習(RL)のサンプル効率を向上させるための有望な方法である
本稿では、報酬のない、混合品質の豊富な非キュレートデータを利用して、オフラインからオフラインへのRLのための使用可能なデータのプールを拡張し、複数の実施形態にまたがって収集する。
論文 参考訳(メタデータ) (2025-02-26T20:34:29Z) - Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset [29.573555134322543]
オフライン強化学習(RL)により、エージェントは環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学習することができる。
オフラインRLにおける重要な課題は、オフラインデータセットの最適なサブセットを選択することだ。
本稿では、勾配近似最適化問題としてデータセット選択をフレーム化するReDORを提案する。
論文 参考訳(メタデータ) (2025-02-26T09:08:47Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。
具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。
Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文 参考訳(メタデータ) (2025-01-22T04:01:17Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。