Fugu-MT 論文翻訳(概要): Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

論文の概要: Efficient Reinforcement Finetuning via Adaptive Curriculum Learning

arxiv url: http://arxiv.org/abs/2504.05520v1
Date: Mon, 07 Apr 2025 21:31:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 03:35:28.564305
Title: Efficient Reinforcement Finetuning via Adaptive Curriculum Learning
Title（参考訳）: 適応型カリキュラム学習による効率的な強化ファインタニング
Authors: Taiwei Shi, Yiyang Wu, Linxin Song, Tianyi Zhou, Jieyu Zhao,
Abstract要約: 強化微調整(RFT)は、大規模言語モデル(LLM)の数学的推論能力を高める大きな可能性を示している。 AdaRFTは、モデルの最近の報奨信号に基づいて、トレーニング問題の難易度を動的に調整する。 AdaRFTはトレーニングステップの数を最大2倍に削減し、精度をかなりのマージンで向上させる。
参考スコア（独自算出の注目度）: 24.52451100497884
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement finetuning (RFT) has shown great potential for enhancing the mathematical reasoning capabilities of large language models (LLMs), but it is often sample- and compute-inefficient, requiring extensive training. In this work, we introduce AdaRFT (Adaptive Curriculum Reinforcement Finetuning), a method that significantly improves both the efficiency and final accuracy of RFT through adaptive curriculum learning. AdaRFT dynamically adjusts the difficulty of training problems based on the model's recent reward signals, ensuring that the model consistently trains on tasks that are challenging but solvable. This adaptive sampling strategy accelerates learning by maintaining an optimal difficulty range, avoiding wasted computation on problems that are too easy or too hard. AdaRFT requires only a lightweight extension to standard RFT algorithms like Proximal Policy Optimization (PPO), without modifying the reward function or model architecture. Experiments on competition-level math datasets-including AMC, AIME, and IMO-style problems-demonstrate that AdaRFT significantly improves both training efficiency and reasoning performance. We evaluate AdaRFT across multiple data distributions and model sizes, showing that it reduces the number of training steps by up to 2x and improves accuracy by a considerable margin, offering a more scalable and effective RFT framework.
Abstract（参考訳）: 強化微調整(Reinforcement Finetuning, RFT)は, 大規模言語モデル(LLM)の数学的推論能力を高める大きな可能性を示している。本稿では,適応的なカリキュラム学習を通じて,RFTの効率性と最終的な精度を大幅に向上させる手法であるAdaRFT(Adaptive Curriculum Reinforcement Finetuning)を紹介する。 AdaRFTは、モデルの最近の報酬信号に基づいて、トレーニングの難しさを動的に調整し、モデルは困難だが解決可能なタスクを継続的に訓練する。この適応的なサンプリング戦略は、最適困難範囲を維持することで学習を加速し、簡単すぎるか難しすぎる問題に対する無駄な計算を避ける。 AdaRFTは、報酬関数やモデルアーキテクチャを変更することなく、PPO(Proximal Policy Optimization)のような標準RTTアルゴリズムへの軽量な拡張しか必要としない。 AdaRFTがトレーニング効率と推論性能の両方を著しく改善する、AMC、AIME、IMOスタイルの問題解決を含む競合レベルの数学データセットの実験。複数のデータ分散とモデルサイズでAdaRFTを評価し、トレーニングステップの数を最大2倍に削減し、かなりのマージンで精度を向上し、よりスケーラブルで効果的なRFTフレームワークを提供することを示した。

関連論文リスト

Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [35.64557242726578]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文参考訳（メタデータ） (2025-07-02T13:04:09Z)
Reinforcement Fine-Tuning Enables MLLMs Learning Novel Tasks Stably [80.36077974826865]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。オープンソースマルチモーダルモデルQwen2.5-VLにおけるSFTとRFTの挙動について検討する。 SFTは迅速なタスク獲得を可能にするが、破滅的な忘れを招き、RFTは新しいタスクについてよりゆっくりと学習するが、事前の知識は維持する。
論文参考訳（メタデータ） (2025-06-30T04:15:01Z)
AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文参考訳（メタデータ） (2025-06-16T09:14:01Z)
Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [61.823835392216544]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。 LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。本手法は,RLの微調整時間を25%から65%削減し,GRPOアルゴリズムと同等の性能を実現する。
論文参考訳（メタデータ） (2025-06-05T17:55:43Z)
AMSFL: Adaptive Multi-Step Federated Learning via Gradient Difference-Based Error Modeling [0.0]
フェデレーション学習は、コミュニケーション効率とモデルの精度のバランスをとる上で、重要な課題に直面します。重要な問題は、高い計算コストを伴わずに更新エラーを近似することにある。グラディエント差分近似(GDA)と呼ばれる軽量で効果的な手法を提案する。
論文参考訳（メタデータ） (2025-05-27T19:32:00Z)
Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。 Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文参考訳（メタデータ） (2025-01-22T04:01:17Z)
Reinforcement learning for anisotropic p-adaptation and error estimation in high-order solvers [0.37109226820205005]
強化学習(RL)を用いた高次h/pにおける異方性p適応の自動化と最適化のための新しい手法を提案する。我々は,シミュレーションを行う際の最小限のオーバーコストを示す,主解法から切り離されたオフライントレーニング手法を開発した。我々は、局所的な離散化誤差の定量化を可能にする、安価なRLベースの誤差推定手法を導出する。
論文参考訳（メタデータ） (2024-07-26T17:55:23Z)
FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition [7.229494183462913]
微調整後の例外的なパフォーマンスにもかかわらず、プレトレーニング言語モデル(PLM)はプライバシー上の懸念から重大な課題に直面している。本論文では,フェデレートラーニング(FL)を微調整PLMとみなす。 1つの有望な解決策はパラメータ効率細調整(PEFT)をFLに活用することであり、完全なパラメータ細調整(FFT)よりもはるかに小さなパラメータセットを訓練する。
論文参考訳（メタデータ） (2024-04-29T16:42:26Z)
FTFT: Efficient and Robust Fine-Tuning by Transferring Training Dynamics [7.58472343957521]
トレーニングダイナミクスは,モデルサイズや事前学習手法間で非常に伝達可能であることを示す。本稿では,TransFerring Training dynamics (FTFT)によるファインチューニング手法を提案する。
論文参考訳（メタデータ） (2023-10-10T12:53:48Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文参考訳（メタデータ） (2022-12-02T05:07:50Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Optimization-driven Machine Learning for Intelligent Reflecting Surfaces Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文参考訳（メタデータ） (2020-08-29T08:39:43Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)
Adaptive Low-Rank Factorization to regularize shallow and deep neural networks [9.607123078804959]
低ランク行列因子化(LRF)を用いて、学習過程に沿って学習モデルのパラメータをドロップアウトする。 SVHNとCIFAR-10データセットにおけるAdaptiveLRFの最良の結果は98%、94.1%、97.9%、94%の精度である。
論文参考訳（メタデータ） (2020-05-05T08:13:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。