論文の概要: Runtime-Orchestrated Second-Order Optimization for Scalable LLM Training
- arxiv url: http://arxiv.org/abs/2605.16184v1
- Date: Fri, 15 May 2026 17:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.382893
- Title: Runtime-Orchestrated Second-Order Optimization for Scalable LLM Training
- Title(参考訳): 拡張性LLMトレーニングのための実行時整合2次最適化
- Authors: Yishun Lu, Junhao Zhang, Zeyu Yang, Wes Armour,
- Abstract要約: 重要なGPUトレーニングパスから2階最適化ロジックを分離するランタイムシステムである textAsteria を導入する。
Asteriaは、アーキテクチャ上の制約に従って、動的に状態をGPUメモリ、CPUメモリ、オプションストレージに分散する。
メモリ制約と分散トレーニング設定の両方でAsteriaを評価する。
- 参考スコア(独自算出の注目度): 4.950833328317384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Second-order methods offer an attractive path toward more sample-efficient LLM training, but their practical use is often blocked by the systems cost of maintaining and updating large matrix-based optimizer states. We introduce \textbf{Asteria}, a runtime system designed to remove this bottleneck by separating second-order optimization logic from the critical GPU training path. Rather than keeping all preconditioner state on the accelerator, Asteria dynamically distributes optimizer state across GPU memory, CPU memory, and optional NVMe storage according to architectural constraints and runtime pressure. It further uses training hooks to prepare shadow states in advance, allowing expensive inverse-root computations to proceed asynchronously on the host while GPU computation continues. For distributed training, Asteria employs a bounded-staleness protocol that limits synchronization frequency while preserving optimizer effectiveness through topology-aware coordination. We evaluate Asteria on both memory-constrained and distributed training settings. On a DGX Spark platform with a single GB10 GPU and 128GB unified memory, Asteria supports second-order training for a 1B-parameter language model. On multi-node GH200 systems, it lowers visible optimizer overhead, reduces recurring latency spikes, accelerates convergence in wall-clock time, and maintains the optimization advantages of SOAP and KL-Shampoo in a 7B-parameter language model. Our results suggest that second-order LLM training can be made practical not by simplifying the optimizer alone, but by rethinking how optimizer state, background computation, and distributed synchronization are managed at the runtime level.
- Abstract(参考訳): 2階法は、よりサンプル効率のよいLLMトレーニングへの魅力的なパスを提供するが、大規模な行列ベースのオプティマイザ状態の維持と更新のシステムコストによって、その実用的利用はブロックされることが多い。
重要なGPUトレーニングパスから2階最適化ロジックを分離することにより、このボトルネックを取り除くために設計されたランタイムシステムである‘textbf{Asteria} を紹介する。
アクセル上のすべてのプレコンディショナ状態を維持する代わりに、Asteriaはアーキテクチャ上の制約と実行時のプレッシャーに応じて、GPUメモリ、CPUメモリ、オプションのNVMeストレージにオプティマイザ状態を動的に分散する。
さらに、トレーニングフックを使用して、事前にシャドウ状態を準備し、GPU計算が継続している間に、高価な逆ルート計算がホスト上で非同期に進行することを可能にする。
分散トレーニングにおいて、Asteriaは、トポロジ・アウェア・コーディネーションによるオプティマイザの有効性を維持しながら同期周波数を制限するバウンダリテッド・スタレネスプロトコルを使用している。
メモリ制約と分散トレーニング設定の両方でAsteriaを評価する。
1GBのGPUと128GBの統一メモリを備えたDGX Sparkプラットフォームでは、Asteriaは1Bパラメータ言語モデルの2次トレーニングをサポートする。
マルチノードのGH200システムでは、可視的なオプティマイザオーバーヘッドを低減し、繰り返し発生するレイテンシのスパイクを低減し、ウォールクロック時間の収束を加速し、7Bパラメータ言語モデルでSOAPとKL-Shampooの最適化の利点を維持する。
この結果から,2次LLMトレーニングは,オプティマイザのみを簡素化するだけでなく,オプティマイザ状態,バックグラウンド計算,分散同期をランタイムレベルでどのように管理するかを再考することによって実現可能であることが示唆された。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - AutoQRA: Joint Optimization of Mixed-Precision Quantization and Low-rank Adapters for Efficient LLM Fine-Tuning [23.59600455731982]
混合量子化微調整プロセスにおいて,各レイヤのビット幅とLoRAランク設定を同時に最適化する共同最適化フレームワークを提案する。
実験によると、AutoQRAは、均一な4ビットメソッドに匹敵するメモリフットプリントで、完全精度の微調整に近いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-25T07:18:08Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。
LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文 参考訳(メタデータ) (2025-07-03T22:53:34Z) - APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文 参考訳(メタデータ) (2024-12-06T18:55:34Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training [22.940404796500985]
分散学習LLMのためのメモリ効率最適化アルゴリズムを提案する。
新しい処理を計算しながら遅延勾配を同期することにより、ACCOはGPUアイドル時間を短縮し、異種ハードウェアをサポートする。
ZeRO-1と比較して、我々のアプローチは大幅に高速で、異種ハードウェアで効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。