論文の概要: Stabilizing Native Low-Rank LLM Pretraining
- arxiv url: http://arxiv.org/abs/2602.12429v1
- Date: Thu, 12 Feb 2026 21:33:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.764721
- Title: Stabilizing Native Low-Rank LLM Pretraining
- Title(参考訳): ネイティブ低ランクLLMプレトレーニングの安定化
- Authors: Paul Janson, Edouard Oyallon, Eugene Belilovsky,
- Abstract要約: 低ランク要因化は、トレーニングと推論コストを削減するための有望なルートを提供する。
我々は,Large Language Models (LLMs) を低ランクの分解量でスクラッチからトレーニングできることを実証した。
提案手法は,過度なオーバーヘッドを伴って,安定したエンドツーエンドのファクタライズトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 24.2079184778031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models have achieved remarkable success, yet their growing parameter counts pose significant computational and memory challenges. Low-rank factorization offers a promising route to reduce training and inference costs, but the community lacks a stable recipe for training models from scratch using exclusively low-rank weights while matching the performance of the dense model. We demonstrate that Large Language Models (LLMs) can be trained from scratch using exclusively low-rank factorized weights for all non-embedding matrices without auxiliary "full-rank" guidance required by prior methods. While native low-rank training often suffers from instability and loss spikes, we identify uncontrolled growth in the spectral norm (largest singular value) of the weight matrix update as the dominant factor. To address this, we introduce Spectron: Spectral renormalization with orthogonalization, which dynamically bounds the resultant weight updates based on the current spectral norms of the factors. Our method enables stable, end-to-end factorized training with negligible overhead. Finally, we establish compute-optimal scaling laws for natively low-rank transformers, demonstrating predictable power-law behavior and improved inference efficiency relative to dense models.
- Abstract(参考訳): 基礎モデルは非常に成功したが、パラメータの増大は計算と記憶に重大な課題をもたらす。
低ランク因数分解は、トレーニングと推論コストを削減するための有望なルートを提供するが、コミュニティは、密集したモデルのパフォーマンスを満足しながら、排他的に低ランクの重みを使ってモデルをスクラッチからトレーニングするための安定したレシピを欠いている。
従来の手法で必要とされていた補助的な「フルランク」ガイダンスを使わずに,すべての非埋め込み行列に対して,Large Language Models (LLMs) を限定的に低ランク因子化重みを用いてスクラッチからトレーニングできることを実証した。
低ランクのネイティブトレーニングは、しばしば不安定性と損失スパイクに悩まされるが、重み行列更新のスペクトルノルム(最大の特異値)の制御不能な成長を支配的要因とみなす。
これを解決するために、直交化を伴うスペクトル再正規化(Spectron: Spectral renormalization)を導入する。
提案手法は,過度なオーバーヘッドを伴って,安定したエンドツーエンドのファクタライズトレーニングを可能にする。
最後に,低ランク変圧器の計算最適スケーリング法則を確立し,予測可能なパワーロッド挙動を示し,高密度モデルに対する推論効率を向上した。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models [33.4538652558253]
低ランク適応(LoRA)は、低ランク行列による更新を近似することにより、微調整された大言語モデル(LLM)の計算とメモリ要求を減らす。
本稿では,事前学習した重みの行列積演算子(MPO)分解を利用した重み分解適応(DoTA)を提案する。
また、4ビット量子化用に設計されたDoTAの量子化バージョンであるQDoTAを紹介する。
論文 参考訳(メタデータ) (2024-12-30T12:00:47Z) - NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前学習モデルは、しばしば最先端のパフォーマンスをもたらすが、全てのパラメータを更新する際に計算コストがかかる。
本稿では,軽量ニューラルネットワークを用いた非線形PEFT手法NEATを提案し,事前学習した重みの非線形変換を学習する。
理論解析により, NEATは等価な表現性を維持しつつ, LoRA よりも高い効率を達成することが示された。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。
我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-06-25T04:01:32Z) - Robust low-rank training via approximate orthonormal constraints [2.519906683279153]
低ランク行列多様体上でネットワークの重みを維持する頑健な低ランク学習アルゴリズムを導入する。
その結果, モデル精度を損なうことなく, トレーニングコストと推論コストを低減し, 良好な条件設定を実現し, 対向ロバスト性を向上する。
論文 参考訳(メタデータ) (2023-06-02T12:22:35Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。