論文の概要: Spectral Compact Training: Pre-Training Large Language Models via Permanent Truncated SVD and Stiefel QR Retraction
- arxiv url: http://arxiv.org/abs/2604.00733v2
- Date: Sun, 05 Apr 2026 12:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 12:54:54.564814
- Title: Spectral Compact Training: Pre-Training Large Language Models via Permanent Truncated SVD and Stiefel QR Retraction
- Title(参考訳): スペクトルコンパクトトレーニング:SVDとStiefelQRリトラクションによる大規模言語モデルの事前学習
- Authors: Björn Roman Kohlberger,
- Abstract要約: 本稿では,高密度な重み行列を恒久的なSVD因子W = U diag(s) VTで置き換える手法であるスペクトルコンパクトトレーニング(SCT)を紹介する。
SCTは、ランク32の1層あたり199倍のメモリ削減を実現し、Steam Deckハンドヘルドの完全なトレーニングステップを可能にする。
SmolLM2-1.7Bのランクスウィープ実験では、全ての試験されたランクが同じ損失フロア(4.2-4.5)に収束し、ランクではなく学習率スケジュールが主要なボトルネックであることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The memory wall remains the primary bottleneck for training large language models on consumer hardware. We introduce Spectral Compact Training (SCT), a method that replaces dense weight matrices with permanent truncated SVD factors W = U diag(s) V^T, where the full dense matrix is never materialized during training or inference. Gradients flow through the compact spectral factors via standard backpropagation, and U, V are retracted to the Stiefel manifold via QR decomposition after each optimizer step. SCT achieves up to 199x memory reduction per MLP layer at rank 32, enabling full training steps of 70B-parameter architectures on a Steam Deck handheld (7.2 GB peak memory vs. 1,245 GB for dense FP32 training with Adam). Rank-sweep experiments on SmolLM2-1.7B (ranks 32-256, 2000 steps, NVIDIA A100) show that all tested ranks converge to the same loss floor (~4.2-4.5), identifying the learning rate schedule -- not MLP rank -- as the primary bottleneck. Rank 128 emerges as the efficiency sweet spot at 11.7x MLP compression with the lowest perplexity. GPU memory drops 46% at rank 32 while training throughput doubles.
- Abstract(参考訳): メモリウォールは、消費者向けハードウェア上での大規模言語モデルのトレーニングにおいて、依然として主要なボトルネックとなっている。
本稿では,密度行列を永久的トラッピングされたSVD因子 W = U diag(s) V^T に置き換える手法であるスペクトル圧縮訓練(SCT)を紹介する。
勾配は標準バックプロパゲーションを介してコンパクトなスペクトル因子を流れ、U, V は各オプティマイザステップの後、QR分解によってスティーフェル多様体に還元される。
SCTは、ランク32のMLP層当たり最大199倍のメモリ削減を実現し、Steam Deckハンドヘルドの70Bパラメータアーキテクチャ(Adamとの密集FP32トレーニングでは7.2GB対1,245GB)の完全なトレーニングステップを可能にする。
SmolLM2-1.7B (32-256, 2000 steps, NVIDIA A100) のランクスウィープ実験では、全ての試験されたランクが同じ損失フロア (~4.2-4.5) に収束し、MLPランキングではなく学習率スケジュールが主要なボトルネックであることが示された。
ランク128は1.7x MLP圧縮における効率のスイートスポットとして出現し、最も低いパープレキシティを持つ。
GPUメモリはランク32で46%低下し、トレーニングスループットは倍増する。
関連論文リスト
- MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - ARA: Adaptive Rank Allocation for Efficient Large Language Model SVD Compression [23.58843227762227]
大言語モデル(LLM)圧縮では、特異値分解(SVD)は広く研究され、採用されている低ランク分解技術である。
グローバル圧縮比制約の下では、異なる線形加群に対する適切なランクを決定することが重要な問題となる。
この問題に対処するための適応ランクアロケーション(ARA)手法を提案する。
論文 参考訳(メタデータ) (2025-10-22T09:05:47Z) - PreLoRA: Hybrid Pre-training of Vision Transformers with Full Training and Low-Rank Adapters [2.5547655072779]
本稿では, 部分収束状態の同定と, ViT-Large モデル上での完全パラメータトレーニングからローランド適応 (LoRA) への切り替えを提案する。
実験結果から,本手法はモデルの精度を保ちながら,トレーニング可能なパラメータの数を元のサイズの10%に減らしていることがわかった。
論文 参考訳(メタデータ) (2025-09-25T21:34:17Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [118.06260386652778]
We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。
DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。
DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
論文 参考訳(メタデータ) (2024-05-07T15:56:43Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Reduced Precision Floating-Point Optimization for Deep Neural Network
On-Device Learning on MicroControllers [15.37318446043671]
本稿では,MCUクラスデバイス上でのオンデバイス学習(ODL)プリミティブに対して,新しい精度最適化手法を提案する。
我々のアプローチは、シングルコアMCUのための既存のODLソフトウェアフレームワークよりも2桁以上高速である。
論文 参考訳(メタデータ) (2023-05-30T16:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。