論文の概要: On-Policy Replay for Continual Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2605.29495v1
- Date: Thu, 28 May 2026 07:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.939733
- Title: On-Policy Replay for Continual Supervised Fine-Tuning
- Title(参考訳): 連続監視ファインチューニングのためのオン・ポリシィ・リプレイ
- Authors: Yan Chen, Taojie Zhu, Meng Zhang, Xin Chen, Jiaqi Huang, Dongyang Xu, Yizhi Wang,
- Abstract要約: オン・ポリティクスの信号は、オフ・ポリティクスの監視よりも確実に忘れを減らします。
提案手法であるOPR (On-Policy Replay) は, 歴史的プロンプトの小さな予算において, 最新のチェックポイントをロールアウトする。
最も鋭いストレステストでは、OPRはBWTを10%のリプレイ予算で-0.65、1%の予算で-2.29に引き上げる。
- 参考スコア(独自算出の注目度): 22.944606442798147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual supervised fine-tuning (SFT) is the de facto recipe for adapting large language models (LLMs) to a stream of downstream tasks, but it suffers from catastrophic forgetting of earlier capabilities. Recent work shows that on-policy signals -- training on the model's own outputs -- reduce forgetting more reliably than off-policy supervision. Existing on-policy methods route this signal through a new training objective (e.g., self-distillation losses with a teacher copy), inheriting an extra forward pass, schedule sensitivity, and stylistic drift from the teacher.We instead route the on-policy signal through the training data source. Our method, On-Policy Replay (OPR), rolls out the most recent checkpoint on a small budget of historical prompts, filters the generations by a task reward, and replays the surviving (prompt, model response) pairs as ordinary SFT examples. There is no teacher, no auxiliary loss, and no on-the-fly distillation. Across three 7--8B instruction-tuned backbones (Qwen2.5-7B-Instruct, Qwen3-8B, Llama3.1-8B-Instruct) on the TRACE continual-learning benchmark, OPR consistently reduces forgetting; on the sharpest stress test (Qwen2.5-7B-Instruct, Sequential SFT BWT -13.93), OPR lifts BWT to -0.65 at a 10% replay budget and to -2.29 at a 1% budget -- a 46% reduction in |BWT| over a tuned Vanilla Replay baseline, with 42--46% reductions observed across all three backbones. We give a KL-shrinkage interpretation that places OPR and prior on-policy distillation methods on a single axis, and we present a counterintuitive finding that explains why Vanilla Replay is already a strong baseline: low-score replay is uniformly worse than Vanilla Replay, demonstrating that the active ingredient in OPR is the on-policy distribution, not the response quality alone.Our code is available at https://github.com/Yancey2024/OnPolicyReplay.
- Abstract(参考訳): 連続的教師付き微調整(SFT)は、大規模言語モデル(LLM)を下流のタスクストリームに適用するためのデファクトレシピである。
最近の研究は、オンラインの信号 -- モデル自身のアウトプットのトレーニング -- が、外部の監視よりも確実に忘れを減らしていることを示している。
既存のオンライン手法では、この信号を新たな学習目標(例えば、教師のコピーによる自己蒸留損失)を通じてルーティングし、教師から追加のフォワードパス、スケジュール感度、スタイリスティックドリフトを継承する。
提案手法であるOn-Policy Replay (OPR) では,履歴的プロンプトの小さな予算で最新のチェックポイントをロールアウトし,タスク報酬によって世代をフィルタリングし,生き残った (prompt, model response) ペアを通常の SFT の例として再生する。
教師はおらず、補助的な損失もなく、飛行中の蒸留も無い。
TRACE連続学習ベンチマークにおける7--8B命令チューニングバックボーン(Qwen2.5-7B-インストラクト、Qwen3-8B、Llama3.1-8B-インストラクト)のうち、OPRは、最も鋭いストレステスト(Qwen2.5-7B-インストラクト、Sequential SFT BWT -13.93)において、BWTを10%のリプレイ予算で-0.65に、1%の予算で-2.29に引き上げる。
我々は, 単一軸上にOPRおよび先行のオンライン蒸留法を配置するKL収縮解釈を行い, バニラ再生がすでに強いベースラインである理由を述べる。低スコアリプレイはバニラ再生よりも均一に悪いため, OPRの有効成分は応答品質のみではなく, オン政治分布であることを示す。我々のコードはhttps://github.com/Yancey2024/OnPolicyReplayで利用可能である。
関連論文リスト
- Prompt replay: speeding up grpo with on-policy reuse of high-signal prompts [0.0]
検証可能な報酬(RLVR)による強化学習は推論能力の拡大に重要な役割を担っているが、GRPOスタイルのトレーニングは高価なロールアウトと使い捨てのプロンプトで計算される無駄に支配されている。
本稿では,GRPO のオーバヘッドフリーなオンラインデータ選択手法である Prompt Replay を提案する。
論文 参考訳(メタデータ) (2026-03-22T11:39:51Z) - Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - Layerwise Proximal Replay: A Proximal Point Method for Online Continual Learning [22.00843101957619]
オンライン連続学習では、ニューラルネットワークは非i.d.データストリームから漸進的に学習する。
経験的なリプレイでトレーニングされたニューラルネットワークは、不安定な最適化軌道を持つ傾向があります。
本稿では、新しいデータと再生データからの学習のバランスを保ちながら、過去のデータの隠れたアクティベーションの段階的変化を許容するLayerwise Proximal Replay(LPR)を提案する。
論文 参考訳(メタデータ) (2024-02-14T19:34:28Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。