論文の概要: RPO:Reinforcement Fine-Tuning with Partial Reasoning Optimization
- arxiv url: http://arxiv.org/abs/2601.19404v2
- Date: Fri, 30 Jan 2026 08:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 14:22:45.20305
- Title: RPO:Reinforcement Fine-Tuning with Partial Reasoning Optimization
- Title(参考訳): RPO:部分共振最適化による強化微細調整
- Authors: Hongzhu Yi, Xinming Wang, Zhenghao zhang, Tianyu Zong, Yuanxiang Wang, Jun Xie, Tao Yu, Haopeng Jin, Kaixin Xu, Feng Chen, Jiahuan Chen, Yujia Yang, Zhenyu Guan, Bingkang Shi, Jungang Xu,
- Abstract要約: プラグ・アンド・プレイ強化微調整アルゴリズムRPO(Reinforcement Fine-Tuning with partial Reasoning Optimization)を提案する。
RPOは、経験キャッシュを使用して推論パスの接尾辞を生成することでモデルを訓練する。
フルパス強化微調整アルゴリズムと比較して、RPOは1.5Bモデルのトレーニング時間を90%、7Bモデルのトレーニング時間を72%削減する。
- 参考スコア(独自算出の注目度): 28.66426135031355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Within the domain of large language models, reinforcement fine-tuning algorithms necessitate the generation of a complete reasoning trajectory beginning from the input query, which incurs significant computational overhead during the rollout phase of training. To address this issue, we analyze the impact of different segments of the reasoning path on the correctness of the final result and, based on these insights, propose Reinforcement Fine-Tuning with Partial Reasoning Optimization (RPO), a plug-and-play reinforcement fine-tuning algorithm. Unlike traditional reinforcement fine-tuning algorithms that generate full reasoning paths, RPO trains the model by generating suffixes of the reasoning path using experience cache. During the rollout phase of training, RPO reduces token generation in this phase by approximately 95%, greatly lowering the theoretical time overhead. Compared with full-path reinforcement fine-tuning algorithms, RPO reduces the training time of the 1.5B model by 90% and the 7B model by 72%. At the same time, it can be integrated with typical algorithms such as GRPO and DAPO, enabling them to achieve training acceleration while maintaining performance comparable to the original algorithms. Our code is open-sourced at https://github.com/yhz5613813/RPO.
- Abstract(参考訳): 大規模言語モデルの領域内では、強化微調整アルゴリズムは、入力クエリから始まる完全な推論軌跡を生成する必要がある。
この問題に対処するために, 最終結果の正しさに対する推論経路の異なるセグメントの影響を分析し, これらの知見に基づいて, プラグ・アンド・プレイ強化微調整アルゴリズムである部分共振最適化(RPO)を用いた強化微調整を提案する。
完全推論パスを生成する従来の強化微調整アルゴリズムとは異なり、RPOは経験キャッシュを使用して推論パスの接尾辞を生成することでモデルを訓練する。
トレーニングのロールアウトフェーズにおいて、RPOはこのフェーズにおけるトークン生成を約95%削減し、理論的時間オーバーヘッドを大幅に低減する。
フルパス強化微調整アルゴリズムと比較して、RPOは1.5Bモデルのトレーニング時間を90%、7Bモデルのトレーニング時間を72%削減する。
同時に、GRPOやDAPOといった一般的なアルゴリズムと統合することができ、元のアルゴリズムに匹敵する性能を維持しながら、トレーニングアクセラレーションを達成することができる。
私たちのコードはhttps://github.com/yhz5613813/RPOでオープンソース化されています。
関連論文リスト
- Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - Reshaping the Forward-Forward Algorithm with a Similarity-Based Objective [1.0064374190752632]
フォワード・フォワードアルゴリズムは、フォワードパスを付加したフォワードパスに置き換える、より生物学的に妥当な方法として提案されている。
この研究において、Forward-Forwardアルゴリズムは類似性学習フレームワークとの統合によって形を変え、推論中に複数のフォワードパスを不要にする。
MNIST、Fashion-MNIST、CIFAR-10データセットの実証的な評価は、FAUSTが精度を大幅に向上し、バックプロパゲーションとのギャップを狭めることを示している。
論文 参考訳(メタデータ) (2025-08-29T10:23:03Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Proximal Algorithm Unrolling: Flexible and Efficient Reconstruction Networks for Single-Pixel Imaging [45.39911367007956]
ディープ・アンロールとプラグ・アンド・プレイのアプローチは、単画素イメージング(SPI)逆問題におけるデファクトとなっている。
本稿では,両クラスの解き手の強みを統合するという課題に対処する。
論文 参考訳(メタデータ) (2025-05-29T07:16:57Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [77.16976971950785]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOは絶対的なアドバンテージを低く保ち、勾配計算や更新に必要な数を大幅に削減する。
実験の結果、CPPOはGSM8Kで最大7.98タイム、Mathで3.48タイムで最大7.48タイム、オリジナルのGRPOと比較して精度を保っている。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z) - Streaming Looking Ahead with Token-level Self-reward [50.699168440048716]
本稿では,トークンレベルの自己回帰モデリング(TRM)機能を備えたポリシーモデルを提案する。
さらに,検索効率を向上し,並列化を向上するストリーミング・ルック・アヘッド (SLA) アルゴリズムを提案する。
SLAとDPOなどの強化微調整技術を組み合わせると、全体の勝利率は89.4%となる。
論文 参考訳(メタデータ) (2025-02-24T22:35:53Z) - Reveal the Mystery of DPO: The Connection between DPO and RL Algorithms [23.399177886166882]
Reinforcement Learning from Human Feedback (RLHF)アルゴリズムが導入された。
これらのアルゴリズムは、トレーニングに明示的な報酬(あるいは値)関数を必要とするかどうかに基づいて、2つの主要なフレームワークに分けることができる。
我々は、DPO、RL、その他のRLHFアルゴリズムに関連する3つの重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2025-02-05T11:41:43Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Path Planning using Reinforcement Learning: A Policy Iteration Approach [0.0]
本研究は、強化学習パラメータに関連する設計空間の探索に光を当てることを目的としている。
本稿では,これらのパラメータを探索するプロセスの高速化を目的とした,自動チューニングに基づく順序回帰手法を提案する。
当社のアプローチでは,従来の最先端技術よりも平均1.48倍のスピードアップで1.82倍のピークスピードアップを実現している。
論文 参考訳(メタデータ) (2023-03-13T23:44:40Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。