論文の概要: RAPID: An Efficient Reinforcement Learning Algorithm for Small Language Models
- arxiv url: http://arxiv.org/abs/2510.03515v1
- Date: Fri, 03 Oct 2025 20:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.086997
- Title: RAPID: An Efficient Reinforcement Learning Algorithm for Small Language Models
- Title(参考訳): RAPID:小型言語モデルのための効率的な強化学習アルゴリズム
- Authors: Lianghuan Huang, Sagnik Anupam, Insup Lee, Shuo Li, Osbert Bastani,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) は, 数学やコーディングといった目的とする課題を解決するために, 小型言語モデル (SLM) を微調整するための有望な戦略として登場した。
RLアルゴリズムはリソース集約的であり、トレーニングにかなりの時間がかかる傾向にある。
本稿では,RLのランニング時間を大幅に削減できる新しいRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 27.643632808936403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a promising strategy for finetuning small language models (SLMs) to solve targeted tasks such as math and coding. However, RL algorithms tend to be resource-intensive, taking a significant amount of time to train. We propose RAPID, a novel RL algorithm that can substantially reduce the running time of RL. Our key insight is that RL tends to be costly due to the need to perform both inference and backpropagation during training. To maximize use of computational resources, our algorithm performs inference in large batches, and then performs off-policy policy gradient updates in mini-batches. For off-policy updates, we incorporate group advantage estimation into the policy gradient algorithm, and derive an importance weighted estimator to correct for the bias arising from off-policy learning. Our experiments demonstrate that our algorithm can reduce running time by 11%-34% on three benchmarks compared to state-of-the-art RL algorithms while maintaining similar or better accuracy.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は, 数学やコーディングといった目的とする課題を解決するために, 小型言語モデル (SLM) を微調整するための有望な戦略として登場した。
しかし、RLアルゴリズムはリソース集約的であり、トレーニングにかなりの時間がかかる傾向にある。
本稿では,RLのランニング時間を大幅に削減できる新しいRLアルゴリズムRAPIDを提案する。
私たちの重要な洞察は、RLはトレーニング中に推論とバックプロパゲーションの両方を実行する必要があるため、コストがかかる傾向があるということです。
計算資源の利用を最大化するために,我々のアルゴリズムは大規模バッチで推論を行い,ミニバッチで政治政策の勾配更新を行う。
政策勾配アルゴリズムにグループ優位性推定を組み込み、政治外学習から生じるバイアスを補正するための重み付け推定器を導出する。
実験の結果,提案アルゴリズムは3つのベンチマークのランニング時間を11%~34%削減できることがわかった。
関連論文リスト
- Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - Effective Reinforcement Learning for Reasoning in Language Models [30.994610715391776]
強化学習(Reinforcement Learning, RL)は、数学やコーディングといった分野における言語モデル(LM)の推論能力を改善するための有望な戦略として登場した。
我々は,計算制約による比較的小さなモデルに焦点をあて,LM推論のためのRLアルゴリズム設計決定を解析する。
その結果, (i) オンラインRLは, 教師付き微調整(SFT)よりも優れ, (ii) PPOをベースとしたオフポリチクスの更新により, ばらつきを抑えて精度が向上し, (iii) KLのばらつきの除去により, より簡潔な世代と精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-22T18:48:09Z) - Snapshot Reinforcement Learning: Leveraging Prior Trajectories for
Efficiency [6.267119107674013]
深部強化学習(DRL)アルゴリズムは、高い性能を達成するために、かなりのサンプルと計算資源を必要とする。
本稿では,環境変更によるサンプル効率の向上を目的としたSnapshot Reinforcement Learningフレームワークを提案する。
本稿では,既存のDRLアルゴリズムとよく統合された,シンプルで効果的なSnapshotRLベースラインアルゴリズムS3RLを提案する。
論文 参考訳(メタデータ) (2024-03-01T17:05:22Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Constraint Sampling Reinforcement Learning: Incorporating Expertise For
Faster Learning [43.562783189118]
本稿では,人間の洞察を高速学習に組み込むための実践的アルゴリズムを提案する。
我々のアルゴリズムであるConstraint Sampling Reinforcement Learning (CSRL)は、事前のドメイン知識をRLポリシーの制約/制約として組み込む。
すべてのケースにおいて、CSRLはベースラインよりも早く良いポリシーを学ぶ。
論文 参考訳(メタデータ) (2021-12-30T22:02:42Z) - A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。
本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。
オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文 参考訳(メタデータ) (2021-06-12T20:38:59Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。