論文の概要: Large Language Model Post-Training: A Unified View of Off-Policy and On-Policy Learning
- arxiv url: http://arxiv.org/abs/2604.07941v2
- Date: Thu, 16 Apr 2026 04:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.132977
- Title: Large Language Model Post-Training: A Unified View of Off-Policy and On-Policy Learning
- Title(参考訳): 学習後の大規模言語モデル:オフ・ポリティクスとオン・ポリティクスの統一的な視点
- Authors: Shiwan Zhao, Zhihu Wang, Xuyang Zhao, Jiaming Zhou, Caiyue Xu, Chenfei Liu, Liting Zhang, Yuhang Jia, Yanzhe Zhang, Hualong Yu, Zichen Xu, Qicheng Li, Yong Qin,
- Abstract要約: ポストトレーニングは、事前訓練された大きな言語モデルを整列し、機能し、デプロイ可能なシステムに変える中心となった。
最近の進歩は、教師付き微調整(SFT)、選好最適化、強化学習(RL)、プロセス監督、検証者誘導法、蒸留、多段パイプラインに及んでいる。
この調査では、LLMのポストトレーニングはモデル行動に対する構造化された介入として最もよく理解されている。
- 参考スコア(独自算出の注目度): 37.29007534251622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training has become central to turning pretrained large language models (LLMs) into aligned, capable, and deployable systems. Recent progress spans supervised fine-tuning (SFT), preference optimization, reinforcement learning (RL), process supervision, verifier-guided methods, distillation, and multi-stage pipelines. Yet these methods are often discussed in fragmented ways, organized by labels or objectives rather than by the behavioral bottlenecks they address. This survey argues that LLM post-training is best understood as structured intervention on model behavior. We organize the field first by trajectory provenance, which defines two primary regimes: off-policy learning on externally supplied trajectories and on-policy learning on learner-generated rollouts. We then interpret methods through two recurring roles -- effective support expansion, which makes useful behaviors more reachable, and policy reshaping, which improves behavior within already reachable regions -- together with a complementary systems-level role, behavioral consolidation, which preserves, transfers, and amortizes useful behavior across stages and model transitions. Under this view, SFT may serve either support expansion or policy reshaping; preference optimization is usually off-policy reshaping, though online variants move closer to learner-generated states. On-policy RL often improves behavior on learner-generated states, but stronger guidance can also make hard-to-reach reasoning paths reachable. Distillation is often better understood as consolidation rather than only compression, and hybrid pipelines emerge as coordinated multi-stage compositions. Overall, the framework helps diagnose post-training bottlenecks and reason about stage composition, suggesting that progress increasingly depends on coordinated systems design rather than any single dominant objective.
- Abstract(参考訳): ポストトレーニングは、事前訓練された大規模言語モデル(LLM)を、整列し、機能し、デプロイ可能なシステムに変える中心となった。
最近の進歩は、教師付き微調整(SFT)、選好最適化、強化学習(RL)、プロセス監督、検証者誘導法、蒸留、多段パイプラインに及んでいる。
しかし、これらの手法はしばしば断片化された方法で議論され、ラベルや目的によって組織される。
この調査では、LLMのポストトレーニングはモデル行動に対する構造化された介入として最もよく理解されている。
我々はまず,外部から供給された軌道上での非政治学習と,学習者が生み出すロールアウトにおける非政治学習という2つの主要な制度を定義した。
次に,2つの反復的な役割を通じてメソッドを解釈する – 効果的なサポート拡張 – 有用な動作をより到達可能なものにすると同時に,すでに到達可能な領域内での動作を改善するポリシの再構築 – と,相補的なシステムレベルの役割である行動統合 – が,ステージやモデル移行全体にわたって有用な動作を保存,転送,記憶する。
この観点では、SFTは拡張やポリシーの再構築をサポートすることができるが、好みの最適化は通常は政治以外の再編成であるが、オンラインの変種は学習者が生成する状態に近づきつつある。
オンラインRLは学習者が生成した状態の行動を改善することが多いが、より強力なガイダンスは、難解な推論パスを到達できるようにする。
蒸留は圧縮だけでなく凝縮としてよく理解され、ハイブリッドパイプラインは調整された多段合成として現れる。
全体として、このフレームワークは、トレーニング後のボトルネックとステージ構成に関する理由の診断に役立つ。
関連論文リスト
- Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning [41.523848964102]
最近の視覚言語モデル(VLM)は強化学習(RL)を通して顕著な推論を実現する
RLは、経験の時代に連続的に進化する大規模視覚言語モデル(LVLM)を実現するための実現可能なソリューションを提供する。
合成データや自己回帰機構といった既存の戦略は、限られた分布とアライメントの困難に悩まされている。
問題解決ではなく,まず文脈から学習するようにモデルに誘導する,二重分離フレームワークDoGeを提案する。
論文 参考訳(メタデータ) (2025-12-07T13:17:31Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。
複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。
既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文 参考訳(メタデータ) (2025-05-27T03:40:02Z) - DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [25.91869315787235]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。
我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。
実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-04-13T20:10:27Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [20.603433987118837]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。