論文の概要: SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.05015v1
- Date: Thu, 07 Aug 2025 03:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.708348
- Title: SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models
- Title(参考訳): SPaRFT:大規模言語モデルのための自己更新強化ファインチューニング
- Authors: Dai Do, Manh Nguyen, Svetha Venkatesh, Hung Le,
- Abstract要約: 大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
- 参考スコア(独自算出の注目度): 51.74498855100541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown strong reasoning capabilities when fine-tuned with reinforcement learning (RL). However, such methods require extensive data and compute, making them impractical for smaller models. Current approaches to curriculum learning or data selection are largely heuristic-driven or demand extensive computational resources, limiting their scalability and generalizability. We propose \textbf{SPaRFT}, a self-paced learning framework that enables efficient learning based on the capability of the model being trained through optimizing which data to use and when. First, we apply \emph{cluster-based data reduction} to partition training data by semantics and difficulty, extracting a compact yet diverse subset that reduces redundancy. Then, a \emph{multi-armed bandit} treats data clusters as arms, optimized to allocate training samples based on model current performance. Experiments across multiple reasoning benchmarks show that SPaRFT achieves comparable or better accuracy than state-of-the-art baselines while using up to \(100\times\) fewer samples. Ablation studies and analyses further highlight the importance of both data clustering and adaptive selection. Our results demonstrate that carefully curated, performance-driven training curricula can unlock strong reasoning abilities in LLMs with minimal resources.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強化学習(RL)で微調整された場合、強い推論能力を示す。
しかし、そのような手法は広範なデータと計算を必要とするため、より小さなモデルでは実用的ではない。
カリキュラム学習やデータ選択への現在のアプローチは、主にヒューリスティック駆動あるいは広範な計算資源を必要とし、そのスケーラビリティと一般化性を制限する。
そこで本稿では,学習対象とするデータの最適化により,学習対象の学習能力に基づいて学習を効率化する,自己評価学習フレームワークである‘textbf{SPaRFT} を提案する。
まず、セマンティクスと難易度でトレーニングデータを分割するために 'emph{cluster-based data reduction} を適用し、冗長性を低減したコンパクトだが多様なサブセットを抽出する。
次に \emph{multi-armed bandit} がデータクラスタをアームとして扱い、モデルの現在のパフォーマンスに基づいてトレーニングサンプルを割り当てるように最適化する。
複数の推論ベンチマークによる実験では、SPaRFTは最先端のベースラインと同等か、あるいは同等の精度を達成し、最大100\times\)のサンプルを使用する。
アブレーション研究と分析は、データクラスタリングと適応選択の両方の重要性をさらに強調している。
この結果から,LLMのリソースを最小限に抑えることで,厳格にキュレートされた性能駆動型トレーニングカリキュラムが,強力な推論能力を解放できることが示唆された。
関連論文リスト
- PASER: Post-Training Data Selection for Efficient Pruned Large Language Model Recovery [11.20326903218271]
インストラクションチューニングなどのポストトレーニング技術は、一般的にモデル性能の回復に使用される。
しかし、いくつかの無関係な命令は、モデルのキャパシティ回復に悪影響を及ぼす可能性がある。
textbfPost-training dtextbfAta textbfSelection method for textbfEfficient pruned large language model textbfRecovery (textbfPASER)を提案する。
論文 参考訳(メタデータ) (2025-02-18T07:11:08Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Efficient Bias Mitigation Without Privileged Information [14.21628601482357]
経験的リスク最小化を通じてトレーニングされたディープニューラルネットワークは、グループ間での大きなパフォーマンス格差を示すことが多い。
この問題に対処しようとする既存のバイアス軽減手法は、トレーニングや検証のためにグループラベルに依存していることが多い。
本稿では,支援者モデルのトレーニング履歴全体を活用するフレームワークであるTAB(Targeted Augmentations for Bias Mitigation)を提案する。
また,TABはグループ情報やモデル選択を使わずにグループ性能を向上し,全体の精度を維持しながら既存手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-26T09:56:13Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - RPLKG: Robust Prompt Learning with Knowledge Graph [14.531071492983767]
CLIPのようなマルチモーダル事前トレーニングモデルでは、さまざまな実験でパフォーマンスが大幅に向上した。
既存の手法はしばしば解釈可能性に欠け、高い計算コストを課す。
本稿では,知識グラフを用いたロバスト・プロンプト学習(RPLKG)を提案する。
論文 参考訳(メタデータ) (2023-04-21T08:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。