論文の概要: Post-Training is About States, Not Tokens: A State Distribution View of SFT, RL, and On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2605.22731v1
- Date: Thu, 21 May 2026 17:03:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.360227
- Title: Post-Training is About States, Not Tokens: A State Distribution View of SFT, RL, and On-Policy Distillation
- Title(参考訳): SFT, RL, およびon-policy蒸留の状態分布ビュー
- Authors: Dong Nie,
- Abstract要約: GSM8K 上で Qwen3-0.6B-Base を用いて, ポストトレーニングを状態分布整形として定式化した。
軽度のSFTランはGSM8Kをほとんど忘れずに改善する一方、ストレスSFTランはかなりの保持損失を引き起こす。
GSM8K, TruthfulQA, MMLUの教師を上回り, 教師を唯一の監督源として用いている。
- 参考スコア(独自算出の注目度): 9.8668958220381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model post-training methods such as supervised fine-tuning (SFT), reinforcement learning (RL), and distillation are often analyzed through their loss functions: maximum likelihood, policy gradients, forward KL, reverse KL, or related objective-level variants. We study a complementary factor: the state distribution on which supervision is applied. For an autoregressive policy, a state is a prompt plus generated prefix. SFT trains on fixed dataset states, while RL and on-policy distillation (OPD) train on states induced by the current learner. We formalize post-training as state-distribution shaping and run a controlled smallscale study using Qwen3-0.6B-Base on GSM8K, with TruthfulQA and MMLU as retention evaluations. Our results show three phenomena. First, a mild SFT run improves GSM8K with little forgetting, while a stress SFT run causes substantial retention loss. Second, OPD from a degraded SFT teacher surpasses that teacher on GSM8K, TruthfulQA, and MMLU, despite using the teacher as its only supervision source. Third, a lightweight on-policy RL run improves GSM8K while preserving retention. These results support a state-centric view of post-training: the source and locality of training states can be as important as the form of the supervision signal.
- Abstract(参考訳): 教師付き微調整(SFT)、強化学習(RL)、蒸留などの大規模言語モデルポストトレーニング手法は、その損失関数(最大可能性、政策勾配、前方KL、逆KL、関連する目標レベルの変種)を通してしばしば分析される。
本研究は,監督が適用される状態分布の相補的要因について考察する。
自己回帰ポリシーでは、状態はプロンプトプラス生成されたプレフィックスである。
SFTは固定されたデータセットの状態でトレーニングし、RLとオンライン蒸留(OPD)は現在の学習者によって誘導される状態でトレーニングする。
我々は,GSM8K上でQwen3-0.6B-Baseを用いた制御された小規模研究を行い,TruthfulQAとMMLUを保持評価としてポストトレーニングを定式化した。
私たちの結果は3つの現象を示している。
第一に、軽度のSFTランはGSM8Kをほとんど忘れずに改善し、一方ストレスSFTランは相当な保持損失を引き起こす。
第2に、劣化したSFT教師からのOPDは、教師を唯一の監督源として用いながら、GSM8K、TruthfulQA、MMLUの教師を上回る。
第3に、軽量のオンラインRLランは、保持を維持しながらGSM8Kを改善している。
これらの結果は、訓練後の状態のソースと局所性は、監督信号の形式と同じくらい重要である、という状態中心の視点を支持する。
関連論文リスト
- Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL [32.91626063934283]
PRISMは、SFTとRLVRの間のドリフトを緩和する3段階パイプラインである。
PRISMは、ポリシーとMixture-of-Experts識別器の間のブラックボックス、レスポンスレベルの対戦ゲームとしてアライメントをキャストする。
Qwen3-VLの実験では、PRISMは複数のRLアルゴリズムでダウンストリームRLVR性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-30T17:12:53Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Expanding the Capabilities of Reinforcement Learning via Text Feedback [49.561885700139676]
テキストフィードバックをトレーニング中に利用できるが、推論では利用できないマルチターンRLセットアップであるテキストフィードバック(RLTF)を形式化する。
そこで本研究では, 自己蒸留法(RLTF-SD)と, フィードバック条件付き第2ターン世代に適合するように単一ターンポリシーを訓練するフィードバックモデリング法(RLTF-FM)の2つの手法を提案する。
以上の結果から,両手法はベンチマークにおいて強いベースラインを一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-02T18:56:56Z) - Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes [22.721425502443253]
我々はPrefixRLを導入し、そこでは、成功裏のトレースのプレフィックスを条件にし、それらを完了させるために、オンデマンドのRLを実行します。
PrefixRLは、問題の難易度を政治外接頭辞の長さで調節することで、難しい問題に対する学習信号を強化する。
我々はPrefixRLの目的が標準RLの目的と一致しているだけでなく、より効率的なことを証明する。
論文 参考訳(メタデータ) (2026-01-26T18:57:00Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Revisiting Estimation Bias in Policy Gradients for Deep Reinforcement
Learning [0.0]
我々は、Deep Reinforcement Learningの観点から、割引されたエピソードマルコフ決定プロセス(MDP)の政策勾配の推定バイアスを再考する。
主要な政策バイアスの1つは、州の分散シフトである。
このような状態分布シフトにもかかわらず、政策勾配推定バイアスは以下の3つの方法で低減できることを示す。
論文 参考訳(メタデータ) (2023-01-20T06:46:43Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。