論文の概要: A Note on Hybrid Online Reinforcement and Imitation Learning for LLMs: Formulations and Algorithms
- arxiv url: http://arxiv.org/abs/2512.23097v1
- Date: Sun, 28 Dec 2025 22:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.361824
- Title: A Note on Hybrid Online Reinforcement and Imitation Learning for LLMs: Formulations and Algorithms
- Title(参考訳): LLMのためのハイブリッドオンライン強化と模倣学習:定式化とアルゴリズム
- Authors: Yingru Li, Ziniu Li, Jiacai Liu,
- Abstract要約: 我々は,Imitation LearningとReinforcement Learningを統合したLarge Language Model (LLM)ファインチューニングのための統一フレームワークを提案する。
軌道レベルのKL分散とタスク報酬を結合した複合目的物の勾配を解析することにより、自然な分解を2つの成分に導出する。
- 参考スコア(独自算出の注目度): 12.695997402754514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a unified framework for Large Language Model (LLM) fine-tuning that integrates Imitation Learning and Reinforcement Learning. By analyzing the gradient of a composite objective combining trajectory-level KL divergence with task rewards, we derive a natural decomposition into two components: (1) an analytically computable Dense Gradient for token-level imitation, and (2) a Monte Carlo estimated Sparse Gradient for long-horizon reward optimization. The Dense Gradient admits a closed-form logit-level formula, enabling efficient GPU implementation.
- Abstract(参考訳): 我々は,Imitation LearningとReinforcement Learningを統合したLarge Language Model (LLM)ファインチューニングのための統一フレームワークを提案する。
軌道レベルのKL分散とタスク報酬を結合した複合目的物の勾配を解析することにより、(1)トークンレベルの模倣のための解析計算可能なDense Gradient、(2)長距離報酬最適化のためのモンテカルロ推定スパースグラディエントの2つの成分に自然な分解を導出する。
Dense Gradientはクローズドフォームのロジットレベルの式を認めており、GPUの効率的な実装を可能にしている。
関連論文リスト
- Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。
本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文 参考訳(メタデータ) (2025-06-02T17:34:29Z) - Learning Mixtures of Experts with EM: A Mirror Descent Perspective [28.48469221248906]
古典的なMixtures of Experts(MoE)は、入力空間を含む機械学習モデルであり、各パーティションでトレーニングされた個別の"エキスパート"モデルである。
我々は,MoEモデルのトレーニングにおける期待最大化(EM)アルゴリズムの理論的保証について検討する。
論文 参考訳(メタデータ) (2024-11-09T03:44:09Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Sparse Backpropagation for MoE Training [118.31785160874024]
バックプロパゲーションとスパースエキスパートルーティングのギャップを埋めるスケーラブルな勾配推定器であるSparseMixerを紹介する。
SparseMixerは数値的なODEフレームワークを基盤として、2階のODEソルバであるミドルポイント法を利用して正確な勾配近似を行う。
事前トレーニングと機械翻訳の両方にSparseMixerをSwitch Transformerに適用すると、SparseMixerのパフォーマンスは大幅に向上する。
論文 参考訳(メタデータ) (2023-10-01T22:43:57Z) - A Generic Descent Aggregation Framework for Gradient-based Bi-level
Optimization [41.894281911990554]
両レベル学習タスクのための新しいBDA(Bi-level Descent Aggregation)フレームワークを開発した。
BDAは上層と下層の両方の階層的目的を集約する。
従来の勾配に基づくbiレベル法の収束結果を改善するための新しい証明法を提案する。
論文 参考訳(メタデータ) (2021-02-16T06:58:12Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - A Unified Analysis of First-Order Methods for Smooth Games via Integral
Quadratic Constraints [10.578409461429626]
本研究では、滑らかで強可変なゲームやイテレーションのための一階法に積分二次的制約理論を適用する。
我々は、負の運動量法(NM)に対して、既知の下界と一致する複雑性$mathcalO(kappa1.5)$で、初めて大域収束率を与える。
一段階のメモリを持つアルゴリズムでは,バッチ毎に1回だけ勾配を問合せすれば,高速化は不可能であることを示す。
論文 参考訳(メタデータ) (2020-09-23T20:02:00Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。