論文の概要: LoLCATs: On Low-Rank Linearizing of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.10254v2
- Date: Fri, 25 Oct 2024 17:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 02:05:09.606247
- Title: LoLCATs: On Low-Rank Linearizing of Large Language Models
- Title(参考訳): LoLCATs: 大規模言語モデルの低ランク線形化について
- Authors: Michael Zhang, Simran Arora, Rahul Chalamala, Alan Wu, Benjamin Spector, Aaryan Singhal, Krithik Ramesh, Christopher Ré,
- Abstract要約: Low-rank Linear Conversion via Attention Transfer (LoLCATs) は、メモリと計算量を大幅に削減して線形化品質を向上させる単純な2段階法である。
LoLCATsは、線形化品質、トレーニング効率、スケーラビリティを大幅に改善する。
我々はLlama 3 8B と Mistral 7B v0.1 から最先端のサブクアッドラティック LLM を作成し、5ショット MMLU に対して20以上の改善点を得た。
- 参考スコア(独自算出の注目度): 41.57459324007514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works show we can linearize large language models (LLMs) -- swapping the quadratic attentions of popular Transformer-based LLMs with subquadratic analogs, such as linear attention -- avoiding the expensive pretraining costs. However, linearizing LLMs often significantly degrades model quality, still requires training over billions of tokens, and remains limited to smaller 1.3B to 7B LLMs. We thus propose Low-rank Linear Conversion via Attention Transfer (LoLCATs), a simple two-step method that improves LLM linearizing quality with orders of magnitudes less memory and compute. We base these steps on two findings. First, we can replace an LLM's softmax attentions with closely-approximating linear attentions, simply by training the linear attentions to match their softmax counterparts with an output MSE loss ("attention transfer"). Then, this enables adjusting for approximation errors and recovering LLM quality simply with low-rank adaptation (LoRA). LoLCATs significantly improves linearizing quality, training efficiency, and scalability. We significantly reduce the linearizing quality gap and produce state-of-the-art subquadratic LLMs from Llama 3 8B and Mistral 7B v0.1, leading to 20+ points of improvement on 5-shot MMLU. Furthermore, LoLCATs does so with only 0.2% of past methods' model parameters and 0.4% of their training tokens. Finally, we apply LoLCATs to create the first linearized 70B and 405B LLMs (50x larger than prior work). When compared with prior approaches under the same compute budgets, LoLCATs significantly improves linearizing quality, closing the gap between linearized and original Llama 3.1 70B and 405B LLMs by 77.8% and 78.1% on 5-shot MMLU.
- Abstract(参考訳): 最近の研究は、大きな言語モデル(LLM)を線形化できることを示している -- 人気のあるTransformerベースのLLMの二次的注意を、線形注意のような二次的アナログに置き換えることで、高価な事前学習コストを回避している。
しかし、LLMの線形化はモデルの品質を著しく低下させ、何十億ものトークンのトレーニングが必要であり、まだ1.3Bから7B LLMに制限されている。
そこで本研究では,LLMの線形化品質をメモリと計算の桁違いで向上する2段階法であるLoLCAT(Lo-rank Linear Conversion via Attention Transfer)を提案する。
これらのステップは2つの発見に基づいています。
まず,LLMのソフトマックスアテンションを線形アテンションと密接に近似することで,そのソフトマックスアテンションと出力MSEロス(アテンション転送)とを一致させるために線形アテンションをトレーニングする。
これにより、近似誤差の調整とLLM品質の回復を、ローランク適応(LoRA)で行うことができる。
LoLCATsは、線形化品質、トレーニング効率、スケーラビリティを大幅に改善する。
我々は,Llama 3 8B と Mistral 7B v0.1 から線形化品質ギャップを著しく減らし,最先端のサブクアッドラティック LLM を作製し,5ショット MMLU を 20 ポイント以上改善した。
さらに、LoLCATsは過去のメソッドのモデルパラメータの0.2%とトレーニングトークンの0.4%しかサポートしていない。
最後に,最初の線形化70Bおよび405B LLM(前処理より50倍大きい)を作成するために LoLCATs を適用した。
同じ計算予算の下で以前のアプローチと比較すると、LOLCATは線形化品質を著しく改善し、線形化されたLlama 3.1 70Bと405B LLMのギャップを5ショットMMLUで77.8%、78.1%削減した。
関連論文リスト
- Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。
我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている
MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文 参考訳(メタデータ) (2024-10-09T23:37:36Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models [13.061946833851605]
自己回帰型LDMに対する既存の線形注意法の有効性に関する総合的研究を行った。
本稿では,投機的復号化との整合性を保証する線形注意のための拡張手法を提案する。
提案手法は,LLaMAモデルにおけるパープレキシティの最大6.67低減と,従来の線形アテンション法と比較して,生成時の最大2$times$スピードアップを実現する。
論文 参考訳(メタデータ) (2024-06-11T15:34:43Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。