論文の概要: UniAttn: Reducing Inference Costs via Softmax Unification for Post-Training LLMs
- arxiv url: http://arxiv.org/abs/2502.00439v1
- Date: Sat, 01 Feb 2025 14:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:33.662695
- Title: UniAttn: Reducing Inference Costs via Softmax Unification for Post-Training LLMs
- Title(参考訳): UniAttn: トレーニング後LLMのSoftmax統合による推論コスト削減
- Authors: Yizhe Xiong, Wei Huang, Xin Ye, Hui Chen, Zijia Lin, Haoran Lian, Zhenpeng Su, Jungong Han, Guiguang Ding,
- Abstract要約: 大規模言語モデル(LLM)を現実世界のアプリケーションに適用するには、ポストトレーニングが不可欠である。
我々は,変圧器ブロック間でのソフトマックスのアクティベーションを統一し,推論コストを削減する新しいポストトレーニング手法であるtextbfAttetextbfntion (textbfUniAttn) における Softmax textbfUnification を提案する。
- 参考スコア(独自算出の注目度): 58.79414743733813
- License:
- Abstract: Post-training is essential for adapting Large Language Models (LLMs) to real-world applications. Deploying post-trained models faces significant challenges due to substantial memory overhead and noticeable inference latency. Existing work has identified significant redundancies in LLMs and proposed efficient architectures, namely intra-layer KV sharing and cross-layer KV sharing. However, intra-layer KV sharing still results in high inference costs, while cross-layer KV sharing leads to significant performance degradation. As a result, both methods remain suboptimal for post-training pre-trained LLMs. In this paper, we identify that the \texttt{Softmax} operation is a primary bottleneck for LLM inference and discover that it is actually highly redundant during post-training. We propose Softmax \textbf{Uni}fication in \textbf{Att}e\textbf{n}tion (\textbf{UniAttn}), a novel post-training method that unifies Softmax activations across transformer blocks to reduce LLM inference costs. Additionally, UniAttn adopts a linear projection to compensate for the errors induced by Softmax unification. Experiments show that UniAttn matches the performance of standard post-training while significantly reducing inference costs, outperforming existing efficient architectures during post-training. Our code will be available at \url{https://github.com/Bostoncake/UniAttn}.
- Abstract(参考訳): 大規模言語モデル(LLM)を現実世界のアプリケーションに適用するには、ポストトレーニングが不可欠である。
トレーニング後のモデルのデプロイは、メモリオーバーヘッドが大幅に増加し、推論遅延が顕著になるため、大きな課題に直面している。
既存の研究は、LLMにおいて重要な冗長性を特定し、効率的なアーキテクチャ、すなわち層内KV共有と層間KV共有を提案している。
しかし、層内KV共有は高い推論コストをもたらす一方、層間KV共有は大きな性能低下をもたらす。
その結果、どちらの手法も訓練後LLMに最適であることがわかった。
本稿では, LLM推論における主要なボトルネックである‘texttt{Softmax} 演算を同定し, ポストトレーニング中に実際に非常に冗長であることを示す。
変圧器ブロック間でのソフトマックスアクティベーションを統一し,LLM推論コストを削減する新しいポストトレーニング手法である, \textbf{Att}e\textbf{n}tion (\textbf{UniAttn}) における Softmax \textbf{Uni} フィケーションを提案する。
さらに、UniAttnは、Softmax統合によって引き起こされるエラーを補うために線形射影を採用している。
実験により、UniAttnはトレーニング後の標準的な性能と一致し、推論コストを大幅に削減し、トレーニング後の既存の効率的なアーキテクチャよりも優れていることが示された。
私たちのコードは \url{https://github.com/Bostoncake/UniAttn} で利用可能です。
関連論文リスト
- P$^2$ Law: Scaling Law for Post-Training After Model Pruning [25.07013858614455]
プルーニングは、大規模言語モデル(LLM)のハードウェア要件を減らすために広く採用されている技術である。
プルーニング後のモデル性能を回復するため、結果として生じる性能劣化を軽減するために後訓練が一般的である。
学習後コストとモデル性能のバランスをとるためには,学習後データの最適量を探索する必要がある。
論文 参考訳(メタデータ) (2024-11-15T15:28:42Z) - Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - An Efficient Inference Framework for Early-exit Large Language Models [5.048467183620882]
初期出力モデルでは、静止層をスキップすることでLCMの推論効率を向上し、自信があれば出力トークンを直接生成する。
早期終了モデルを考慮に入れたLLM推論フレームワークの作業はない。
我々は,(1)反復レベルの粒度のバッチ推論,(2)KVキャッシュ管理という,早期終了モデルの効率的な推論フレームワークを構築する上での2つの課題を解決する。
論文 参考訳(メタデータ) (2024-07-25T07:50:17Z) - Linearizing Large Language Models [26.94551511277412]
本稿では,既存の大規模事前学習型トランスフォーマーを,控えめな計算予算でリカレントニューラルネットワーク(RNN)にアップトレーニングする方法を提案する。
線形化手法は標準ベンチマーク上での競合性能につながるが,最大線形モデルにおいても,永続的な文脈内学習と長期コンテキストモデリングの欠点を同定する。
論文 参考訳(メタデータ) (2024-05-10T17:59:08Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers [52.199303258423306]
本稿では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法である textbfDEFT は,RoBERTa$_mathrmLarge$ で textbf44.94% ,Flan-T5$_mathrmXXL$ で textbf53.19% (エンコーダ密度) と textbf90.60% (デコーダ密度) で常に活性化密度を減少させることができる。
論文 参考訳(メタデータ) (2024-02-02T21:25:46Z) - EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism [70.07661254213181]
大規模学習のためのフレームワークであるEE-LLMについて述べる。
Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。
解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文 参考訳(メタデータ) (2023-12-08T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。