論文の概要: LOST: Low-rank and Sparse Pre-training for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.02668v1
- Date: Mon, 04 Aug 2025 17:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.465831
- Title: LOST: Low-rank and Sparse Pre-training for Large Language Models
- Title(参考訳): LOST: 大規模言語モデルのための低ランクとスパース事前トレーニング
- Authors: Jiaxi Li, Lu Yin, Li Shen, Jinjin Xu, Liwu Xu, Tianjin Huang, Wenwu Wang, Shiwei Liu, Xilu Wang,
- Abstract要約: 大規模言語モデルでは、スクラッチから事前学習するための計算とメモリのコストが禁じられている。
LLMのためのtextbfLOw-rank と textbfSparse pre-textbfTraining (textbfLOST) を提案する。
- 参考スコア(独自算出の注目度): 28.81360343891614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have achieved remarkable performance across a wide range of tasks, their massive scale incurs prohibitive computational and memory costs for pre-training from scratch. Recent studies have investigated the use of low-rank parameterization as a means of reducing model size and training cost. In this context, sparsity is often employed as a complementary technique to recover important information lost in low-rank compression by capturing salient features in the residual space. However, existing approaches typically combine low-rank and sparse components in a simplistic or ad hoc manner, often resulting in undesirable performance degradation compared to full-rank training. In this paper, we propose \textbf{LO}w-rank and \textbf{S}parse pre-\textbf{T}raining (\textbf{LOST}) for LLMs, a novel method that ingeniously integrates low-rank and sparse structures to enable effective training of LLMs from scratch under strict efficiency constraints. LOST applies singular value decomposition to weight matrices, preserving the dominant low-rank components, while allocating the remaining singular values to construct channel-wise sparse components to complement the expressiveness of low-rank training. We evaluate LOST on LLM pretraining ranging from 60M to 7B parameters. Our experiments show that LOST achieves competitive or superior performance compared to full-rank models, while significantly reducing both memory and compute overhead. Moreover, Code is available at \href{https://github.com/JiaxiLi1/LOST-Low-rank-and-Sparse-Training-for-Large-Language-Models}{LOST Repo}
- Abstract(参考訳): 大規模言語モデル(LLM)は幅広いタスクで顕著なパフォーマンスを達成しているが、その大規模化は、スクラッチから事前学習するための計算とメモリコストを禁止している。
近年,モデルサイズとトレーニングコストを低減させる手段として,低ランクパラメータ化を用いた手法が研究されている。
この文脈では、余剰空間における有意な特徴を捉えることにより、低ランク圧縮で失われた重要な情報を回復するための補完的手法として、スパーシリティが用いられることが多い。
しかし、既存のアプローチは通常、単純な方法で低ランクとスパースコンポーネントを結合し、フルランクのトレーニングと比べて望ましくないパフォーマンス低下をもたらす。
本稿では,低ランク・スパース構造を創発的に統合し,厳密な効率制約の下でゼロからLLMを効果的に訓練する手法である LLM に対する \textbf{LO}w-rank と \textbf{S}parse pre-\textbf{T}raining (\textbf{LOST}) を提案する。
LOSTは、重み行列に特異値分解を適用し、支配的な低ランク成分を保存しつつ、残りの特異値をチャンネルワイズスパース成分に割り当て、低ランクトレーニングの表現性を補完する。
LLMプレトレーニングにおけるLOSTを60Mから7Bのパラメータで評価した。
実験の結果、LOSTはフルランクモデルと比較して、競合や優れた性能を実現し、メモリと計算オーバーヘッドの両方を著しく低減することがわかった。
さらに、コードは \href{https://github.com/JiaxiLi1/LOST-Low-rank-and-Sparse-Training-for-Language-Models}{LOST Repo} で利用可能である。
関連論文リスト
- ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - UniAttn: Reducing Inference Costs via Softmax Unification for Post-Training LLMs [58.79414743733813]
大規模言語モデル(LLM)を現実世界のアプリケーションに適用するには、ポストトレーニングが不可欠である。
我々は,変圧器ブロック間でのソフトマックスのアクティベーションを統一し,推論コストを削減する新しいポストトレーニング手法であるtextbfAttetextbfntion (textbfUniAttn) における Softmax textbfUnification を提案する。
論文 参考訳(メタデータ) (2025-02-01T14:16:31Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - SLTrain: a sparse plus low-rank approach for parameter and memory efficient pretraining [39.56934385513862]
大規模言語モデル(LLM)をゼロから訓練するには、計算能力と広範なメモリ容量が必要である。
最近の研究では、パラメータとメモリの点で効率的な微調整のための重量の低ランク構造を探索している。
本稿では,SLTrain と呼ばれる事前学習用低ランク行列とスパース行列の和として重みをパラメータ化することを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:14:21Z) - Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks [9.96381061452642]
Low-Rank Adaptation (LoRA) と ReLoRA は低ランク構造で課題に直面している。
予備学習におけるメモリ使用量の最適化を目的としたスパーススペクトルトレーニング(SST)を提案する。
SSTは、他の低ランクメソッドとフルランクトレーニングの間の難易度ギャップを97.4%削減する。
論文 参考訳(メタデータ) (2024-05-24T11:59:41Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。