論文の概要: Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.15157v2
- Date: Fri, 19 Sep 2025 03:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 12:06:46.429611
- Title: Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning
- Title(参考訳): Mind the Gap: 安定的なオフポリティ監視ファインチューニングのためのデータ書き直し
- Authors: Shiwan Zhao, Xuyang Zhao, Jiaming Zhou, Aobo Kong, Qicheng Li, Yong Qin,
- Abstract要約: 大規模言語モデルの教師付き微調整(SFT)は、非政治的な学習問題と見なすことができる。
既存の方法では、ギャップを積極的に減らすのではなく、パッシブに更新するKLペナルティやクリッピングによってこの問題を軽減する。
本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.899779762210976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning (SFT) of large language models can be viewed as an off-policy learning problem, where expert demonstrations come from a fixed behavior policy while training aims to optimize a target policy. Importance sampling is the standard tool for correcting this distribution mismatch, but large policy gaps lead to skewed weights, high variance, and unstable optimization. Existing methods mitigate this issue with KL penalties or clipping, which passively restrict updates rather than actively reducing the gap. We propose a simple yet effective data rewriting framework that proactively shrinks the policy gap before training. For each problem, correct model-generated solutions are kept as on-policy data, while incorrect ones are rewritten through guided re-solving, falling back to expert demonstrations only when needed. This aligns the training distribution with the target policy, reducing variance and improving stability. To handle residual mismatch after rewriting, we additionally apply importance sampling during training, forming a two-stage approach that combines data-level alignment with lightweight optimization-level correction. Experiments on five mathematical reasoning benchmarks show consistent and significant gains over both vanilla SFT and the state-of-the-art Dynamic Fine-Tuning (DFT) approach. Data and code will be released at https://github.com/NKU-HLT/Off-Policy-SFT.
- Abstract(参考訳): 大規模言語モデルの教師付き微調整(SFT)は、専門家による実証は、目標とするポリシーを最適化することを目的としている間、固定された行動ポリシーから来る、非政治的な学習問題と見なすことができる。
重要度サンプリングは、この分布ミスマッチを修正するための標準的なツールであるが、大きなポリシーギャップは、歪んだ重み、高いばらつき、不安定な最適化につながる。
既存の方法では、ギャップを積極的に減らすのではなく、更新をパッシブに制限するKLペナルティやクリッピングによってこの問題を軽減する。
本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
それぞれの問題に対して、正しいモデル生成ソリューションは、政治上のデータとして保持されるが、誤ったソリューションは、ガイド付き解決を通じて書き換えられ、必要に応じて専門家のデモにフォールバックする。
これにより、トレーニング分布を目標ポリシと整合させ、分散を低減し、安定性を向上する。
書き直し後の残留ミスマッチに対処するために、トレーニング中に重要サンプリングを適用し、データレベルのアライメントと軽量な最適化レベルの修正を組み合わせた2段階のアプローチを形成する。
5つの数学的推論ベンチマークの実験は、バニラSFTと最先端のダイナミックファインチューニング(DFT)アプローチの両方に対して、一貫性と顕著な利得を示している。
データとコードはhttps://github.com/NKU-HLT/Off-Policy-SFTで公開される。
関連論文リスト
- Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。
本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Divergence-Augmented Policy Optimization [12.980566919112034]
本稿では,非政治データの再利用時にポリシー最適化を安定化させる手法を提案する。
その考え方は、データを生成する行動ポリシーと現在のポリシーをBregmanに分けて、非政治データによる小規模で安全なポリシー更新を保証する、というものだ。
Atariゲームにおける実証実験により,非政治データの再利用が必要なデータ共有シナリオにおいて,本手法は他の最先端の深層強化学習アルゴリズムよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2025-01-25T02:35:46Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。