論文の概要: LLM Zeroth-Order Fine-Tuning is an Inference Workload
- arxiv url: http://arxiv.org/abs/2605.28760v1
- Date: Wed, 27 May 2026 17:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.242774
- Title: LLM Zeroth-Order Fine-Tuning is an Inference Workload
- Title(参考訳): LLMゼロ次ファインチューニングは推論作業量である
- Authors: Zelin Li, Caiwen Ding,
- Abstract要約: バックプロパゲーションを前方目標評価に置き換えるため、ゼロオーダー(ZO)ファインチューニングは大規模言語モデルにとって魅力的である。
既存の実装では、近隣のパラメータ状態の下で、支配的な作業が繰り返しスコアリングされているにもかかわらず、従来のトレーニングループ内でZOアルゴリズムを実行している。
LLM ZOファインチューニングは推論に支配される作業負荷であり,その繰り返しスコアリングフェーズをサービスランタイムを通じて実行することを示す。
- 参考スコア(独自算出の注目度): 11.157054169482322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zeroth-order (ZO) fine-tuning is attractive for large language models because it replaces backpropagation with forward objective evaluations. Existing implementations nevertheless execute ZO algorithms inside conventional training loops, even though their dominant work is repeated scoring under nearby parameter states. This creates a workload-runtime mismatch: the algorithm asks for structured inference-style scoring, while the system exposes a sequence of fragmented training-loop steps. We show that LLM ZO fine-tuning is an inference-dominated workload and execute its repeated scoring phase through a serving runtime. On OPT-13B SST-2, the resulting vLLM execution path completes the 20k-step LoZO run in 0.51 estimated training hours versus 4.15 hours for the official LoZO baseline under the matched LoRA-only setting, an 8.13x speedup, while reaching 0.922 final evaluation accuracy and 0.931 final full-validation accuracy. In core-step scaling experiments across OPT-1.3B to OPT-13B, the same runtime reorganization gives 2.34x--7.72x speedups. A MeZO-style high-rank factorized experiment shows that the same runtime paradigm can track a MeZO-like loss trajectory while running up to 2.55x faster. More broadly, representing ZO updates as dynamic adapter states suggests a practical path toward inference-time training, where lightweight adaptation can be scheduled as an inference-like workload rather than as a separate training job.
- Abstract(参考訳): バックプロパゲーションを前方目標評価に置き換えるため、ゼロオーダー(ZO)ファインチューニングは大規模言語モデルにとって魅力的である。
既存の実装は、近隣のパラメータ状態の下で、その主な作業が繰り返しスコアリングされているにもかかわらず、従来のトレーニングループ内でZOアルゴリズムを実行する。
アルゴリズムは構造化された推論スタイルのスコアリングを求め、システムは断片化されたトレーニングループステップのシーケンスを公開する。
LLM ZOファインチューニングは推論に支配される作業負荷であり,その繰り返しスコアリングフェーズをサービスランタイムを通じて実行することを示す。
OPT-13B SST-2では、結果のvLLM実行パスが0.51のトレーニング時間で20kステップのLoZOの実行を完了し、マッチしたLoRAのみの設定で公式のLoZOベースラインで4.15時間、8.13倍のスピードアップを行い、最終的な評価精度0.922、最終評価精度0.931に達した。
OPT-1.3BからOPT-13Bへのコアステップスケーリング実験では、同じランタイム再編成によって2.34x--7.72xのスピードアップが与えられる。
MeZOスタイルの高階分解実験は、同じランタイムパラダイムがMeZOライクな損失軌跡をトラックし、最大2.55倍高速に動作可能であることを示している。
より広義には、動的アダプタステートとしてZO更新を表現することは、個別のトレーニングジョブではなく、推論ライクなワークロードとして軽量な適応をスケジュールできる、推論時トレーニングへの実践的なパスを示唆している。
関連論文リスト
- Beyond Perplexity: A Geometric and Spectral Study of Low-Rank Pre-Training [11.118638230247951]
検証の難易度が近い場合でも,低ランクの手法はフルランクの訓練と同等ではなく,互いに同等ではないことを示す。
低ランクアクティベーションは、トレーニングが進むにつれて、後層のフルランクから分岐し、GaLoreはフルランクを追跡する。
論文 参考訳(メタデータ) (2026-05-13T15:11:37Z) - Self-Adversarial One Step Generation via Condition Shifting [11.426065945265647]
APEXは、フローモデルから不均一に抽出された逆補正信号のフレームワークである。
私たちの0.6BモデルはFLUX-Schnell 12B(20$times$ more parameters)を1ステップ品質で上回ります。
Qwen-Image 20BのLoRAチューニングにより、APEXは6時間でNFE=1のGenEvalスコア0.89に達し、最初の50ステップの教師(0.87)を超え、15.33$times$推論スピードアップを提供する。
論文 参考訳(メタデータ) (2026-04-14T05:54:33Z) - Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It [24.70923739848818]
トレーニングが進むにつれて,勾配雑音やトレーニング推論ミスマッチが増大することが明らかとなった。
更新サイズを小さくすることで、ミスマッチを効果的に抑制できることがわかった。
本稿では,学習率スケジューラという,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:00:53Z) - Trajectory Guard -- A Lightweight, Sequence-Aware Model for Real-Time Anomaly Detection in Agentic AI [0.0]
トラジェクトリガードはシームズ・リカレント・オートエンコーダであり、コントラスト学習によるタスク・トラジェクトリアライメントと、再構成によるシーケンシャル・アライメントを共同で学習するハイブリッド・ロス機能を備えている。
32ミリ秒のレイテンシで、当社のアプローチは LLM Judge のベースラインよりも17-27倍高速で動作し、実運用環境におけるリアルタイムの安全性検証を可能にします。
論文 参考訳(メタデータ) (2026-01-02T00:27:11Z) - Dynamic Learning Rate Scheduling based on Loss Changes Leads to Faster Convergence [2.1665689529884697]
emphGreedyLRは、トレーニング中に現在の損失に基づいて学習率を適応的に調整する新しいスケジューラである。
提案手法は, 精度, 速度, 収束の点で, 最先端のスケジューラよりも優れている。
論文 参考訳(メタデータ) (2025-12-16T16:03:52Z) - Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling [75.36692892951018]
トレーニング中のバッチサイズの増加は、大規模な言語モデルの事前トレーニングを加速するための有望な戦略である。
この研究はバッチサイズスケジューリングのための原則化されたフレームワークを開発する。
標準スケジューラが学習率を半減するたびに、Seesawは1/sqrt2$と倍増し、バッチサイズを倍増します。
論文 参考訳(メタデータ) (2025-10-16T14:17:38Z) - Efficient local linearity regularization to overcome catastrophic
overfitting [59.463867084204566]
単段階逆行訓練におけるカタストロフィックオーバーフィッティング(CO)は、逆行性テスト精度(最大0%まで)の急激な低下をもたらす。
我々は,従来のAT評価においてCOを効果的かつ効率的に緩和するために,ELLEと呼ばれる正規化項を導入する。
論文 参考訳(メタデータ) (2024-01-21T22:55:26Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Fast and Data Efficient Reinforcement Learning from Pixels via
Non-Parametric Value Approximation [90.78178803486746]
離散動作,画素ベース環境のための強化学習アルゴリズムであるNonparametric Approximation of Inter-Trace Return (NAIT)を提案する。
ATARI100kの26ゲーム版と57ゲーム版の両方においてNAITを実証的に評価した。
論文 参考訳(メタデータ) (2022-03-07T00:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。