論文の概要: Towards a Unified View of Large Language Model Post-Training
- arxiv url: http://arxiv.org/abs/2509.04419v1
- Date: Thu, 04 Sep 2025 17:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.237483
- Title: Towards a Unified View of Large Language Model Post-Training
- Title(参考訳): 学習後の大規模言語モデルの統一的視点に向けて
- Authors: Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou,
- Abstract要約: モダン言語モデルの訓練後モデルには2つの主要なトレーニングデータがある。
Reinforcement Learning (RL) や Supervised Fine-Tuning (SFT) のようなアプローチは矛盾せず、単一の最適化プロセスの例であることを示す。
異なるトレーニング信号を動的に選択するアルゴリズムであるHybrid Post-Training (HPT)を提案する。
- 参考スコア(独自算出の注目度): 27.906878681963263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two major sources of training data exist for post-training modern language models: online (model-generated rollouts) data, and offline (human or other-model demonstrations) data. These two types of data are typically used by approaches like Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT), respectively. In this paper, we show that these approaches are not in contradiction, but are instances of a single optimization process. We derive a Unified Policy Gradient Estimator, and present the calculations of a wide spectrum of post-training approaches as the gradient of a common objective under different data distribution assumptions and various bias-variance tradeoffs. The gradient estimator is constructed with four interchangeable parts: stabilization mask, reference policy denominator, advantage estimate, and likelihood gradient. Motivated by our theoretical findings, we propose Hybrid Post-Training (HPT), an algorithm that dynamically selects different training signals. HPT is designed to yield both effective exploitation of demonstration and stable exploration without sacrificing learned reasoning patterns. We provide extensive experiments and ablation studies to verify the effectiveness of our unified theoretical framework and HPT. Across six mathematical reasoning benchmarks and two out-of-distribution suites, HPT consistently surpasses strong baselines across models of varying scales and families.
- Abstract(参考訳): トレーニング後のモダン言語モデルには、オンライン(モデル生成ロールアウト)データとオフライン(人間または他のモデルデモ)データという、2つのトレーニングデータがある。
これらの2種類のデータは通常、強化学習(RL)や監視ファインチューニング(SFT)といったアプローチで使用される。
本稿では,これらの手法が矛盾するものではなく,一つの最適化プロセスの例であることを示す。
我々は、統一政策勾配推定器を導出し、異なるデータ分散仮定と様々なバイアス分散トレードオフの下での共通の目的の勾配として、幅広い訓練後のアプローチの計算を行う。
勾配推定器は, 安定化マスク, 基準方針決定器, 有利推定器, 公準勾配の4つの交換可能な部分で構成されている。
提案するHybrid Post-Training (HPT) は,異なる学習信号を動的に選択するアルゴリズムである。
HPTは、学習した推論パターンを犠牲にすることなく、実演と安定した探索の両方を効果的に活用するように設計されている。
我々は、我々の統合理論フレームワークとHPTの有効性を検証するために、広範囲な実験とアブレーション研究を行っている。
6つの数学的推論ベンチマークと2つのアウト・オブ・ディストリビューション・スイートにまたがって、HPTはさまざまなスケールとファミリーのモデルにまたがる強力なベースラインを一貫して超えている。
関連論文リスト
- Federated Online Learning for Heterogeneous Multisource Streaming Data [0.0]
フェデレートラーニングは、プライバシの懸念の下で分散マルチソースデータ分析に不可欠なパラダイムとして登場した。
本稿では,分散マルチソースストリーミングデータ解析のためのFOL手法を提案する。
論文 参考訳(メタデータ) (2025-08-08T19:08:53Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Adversarial Augmentation Training Makes Action Recognition Models More Robust to Realistic Video Distribution Shifts [12.818400676159953]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Learning Gaussian Graphical Models with Latent Confounders [74.72998362041088]
我々は、グラフィカルモデルにおける推論のための2つの戦略を、潜伏した共同創設者と比較し、対比する。
これら2つのアプローチは、類似した目標を持っているが、それらは共起に関する異なる仮定によって動機付けられている。
これら2つのアプローチの強みを組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-14T00:53:03Z) - rTop-k: A Statistical Estimation Approach to Distributed SGD [5.197307534263253]
トップkとランダムkのスパーシフィケーション手法は, いずれの手法も単独で適用した場合, 連続的に, 顕著に優れていることを示す。
本稿では,空間性および統計的に最適な通信方式を捉える勾配の簡易な統計的推定モデルを提案する。
CIFAR-10, ImageNet, および Penn Treebank のデータセットを用いて画像領域と言語領域に関する広範な実験を行い、これらの2つのスパーシフィケーション手法のスキュードな適用は、いずれの手法も単独で適用した場合に著しく優れることを示した。
論文 参考訳(メタデータ) (2020-05-21T16:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。