論文の概要: A3 : an Analytical Low-Rank Approximation Framework for Attention
- arxiv url: http://arxiv.org/abs/2505.12942v1
- Date: Mon, 19 May 2025 10:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.536937
- Title: A3 : an Analytical Low-Rank Approximation Framework for Attention
- Title(参考訳): A3 : 注意のための分析的低ランク近似フレームワーク
- Authors: Jeffrey T. H. Wong, Cheng Zhang, Xinye Cao, Pedro Gimenes, George A. Constantinides, Wayne Luk, Yiren Zhao,
- Abstract要約: トレーニング後の低ランク近似フレームワークである$tt Attt 3$を提案する。
tt Attt 3$ は SoTA よりも優れたパフォーマンスを維持していることを示す。
また、KVキャッシュ圧縮、量子化、性能向上のための混合ランク代入など、$tt Att 3$の汎用性も示す。
- 参考スコア(独自算出の注目度): 14.649496050074735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated remarkable performance; however, their massive parameter counts make deployment highly expensive. Low-rank approximation offers a promising compression solution, yet existing approaches have two main limitations: (1) They focus on minimizing the output error of individual linear layers, without considering the architectural characteristics of Transformers, and (2) they decompose a large weight matrix into two small low-rank matrices. Consequently, these methods often fall short compared to other compression techniques like pruning and quantization, and introduce runtime overhead such as the extra GEMM kernel launches for decomposed small matrices. To address these limitations, we propose $\tt A^\tt 3$, a post-training low-rank approximation framework. $\tt A^\tt 3$ splits a Transformer layer into three functional components, namely $\tt QK$, $\tt OV$, and $\tt MLP$. For each component, $\tt A^\tt 3$ provides an analytical solution that reduces the hidden dimension size inside each component while minimizing the component's functional loss ($\it i.e.$, error in attention scores, attention outputs, and MLP outputs). This approach directly reduces model sizes, KV cache sizes, and FLOPs without introducing any runtime overheads. In addition, it provides a new narrative in advancing the optimization problem from singular linear layer loss optimization toward improved end-to-end performance. Through extensive experiments, we show that $\tt A^\tt 3$ maintains superior performance compared to SoTAs. For example, under the same reduction budget in computation and memory, our low-rank approximated LLaMA 3.1-70B achieves a perplexity of 4.69 on WikiText-2, outperforming the previous SoTA's 7.87 by 3.18. We also demonstrate the versatility of $\tt A^\tt 3$, including KV cache compression, quantization, and mixed-rank assignments for enhanced performance.
- Abstract(参考訳): 大規模な言語モデルは目覚ましいパフォーマンスを示しているが、その膨大なパラメータ数は、デプロイを非常に高価にしている。
低ランク近似は、有望な圧縮ソリューションを提供するが、既存のアプローチには、(1)トランスフォーマーのアーキテクチャ特性を考慮せずに、個々の線形層の出力誤差を最小限に抑えること、(2)大きな重み行列を2つの小さな低ランク行列に分解すること、の2つの主な制限がある。
その結果、これらの手法はプルーニングや量子化といった他の圧縮手法に比べて短くなることが多く、分解された小さな行列に対してGEMMカーネルの余分な起動のようなランタイムオーバーヘッドを導入する。
これらの制約に対処するため、トレーニング後の低ランク近似フレームワークである$\tt A^\tt 3$を提案する。
$\tt A^\tt 3$はTransformer層を3つの機能コンポーネント、すなわち$\tt QK$, $\tt OV$, $\tt MLP$に分割する。
それぞれのコンポーネントに対して、$\tt A^\tt 3$は、各コンポーネント内の隠れた次元サイズを削減し、コンポーネントの機能的損失を最小限に抑える分析ソリューションを提供する(つまり、注意点のエラー、注意出力、MLP出力)。
このアプローチは、ランタイムオーバーヘッドを導入することなく、モデルサイズ、KVキャッシュサイズ、FLOPを直接削減する。
さらに, 非線形層損失最適化からエンドツーエンド性能向上への最適化問題を推し進める上で, 新たな物語を提供する。
大規模な実験により,$\tt A^\tt 3$ は SoTA と比較して優れた性能を維持していることがわかった。
例えば、計算とメモリの同じ削減予算の下で、我々のLLaMA 3.1-70BはWikiText-2上で4.69の難易度を達成し、以前のSoTAの7.87の3.18を上回った。
また、KVキャッシュ圧縮、量子化、性能向上のための混合ランク代入など、$\tt A^\tt 3$の汎用性を示す。
関連論文リスト
- FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。
本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。
提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文 参考訳(メタデータ) (2025-04-17T12:52:08Z) - Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers [18.469378618426294]
本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。
我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
論文 参考訳(メタデータ) (2025-02-03T19:24:01Z) - Pivoting Factorization: A Compact Meta Low-Rank Representation of Sparsity for Efficient Inference in Large Language Models [1.6385815610837167]
本稿では,任意の低ランク表現のコンパクトな形式を教師なしで学習する,新しい低ランク表現であるPivoting Factorization(PIFA)を提案する。
低ランクプルーニングによる性能劣化を軽減するため,リトレーニング不要な新しい低ランク再構築手法を提案する。
MPIFAは、既存の低ランクプルーニング法を著しく上回り、半構造化プルーニングに匹敵する性能を初めて達成した。
論文 参考訳(メタデータ) (2025-01-31T12:36:31Z) - LUT-DLA: Lookup Table as Efficient Extreme Low-Bit Deep Learning Accelerator [11.167930856636161]
本稿では、ベクトル量子化を利用してニューラルネットワークモデルをLUTに変換するLUT-DLA(Look-Up Table (LUT) Deep Learning Accelerator Framework)を紹介する。
LUT-DLAは、それぞれ$1.4$$7.0times$と$1.5$$$146.1times$で、電力効率と面積効率の改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-01-18T05:27:25Z) - S$^{2}$FT: Efficient, Scalable and Generalizable LLM Fine-tuning by Structured Sparsity [39.679861450783605]
LLMのための構造化スパースファインチューニング(S$2$FT)手法のファミリーを提案する。
S$2$FTは、"スパースと密度の高い計算を選択"することでこれを達成します。
S$2$FTはトレーニングメモリを最大3$times$まで節約し、フルFTと比較して1.5-2.7$times$のレイテンシを改善することを示す。
論文 参考訳(メタデータ) (2024-12-09T08:24:11Z) - Demystifying Linear MDPs and Novel Dynamics Aggregation Framework [8.087699764574788]
線型 MDP において、$d$ は遷移確率を適切に表すために$S/U$ で制限される。
動的アグリゲーション(dynamics aggregate, 動的アグリゲーション)と呼ばれる動的に基づく新しい構造アグリゲーションフレームワークを提案する。
提案アルゴリズムは統計的効率を示し,$ tildeO (d_psi3/2 H3/2sqrt T)$, $d_psi$は集約されたサブMDPの特徴次元を表す。
論文 参考訳(メタデータ) (2024-10-31T16:21:41Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Scalable 3D Registration via Truncated Entry-wise Absolute Residuals [65.04922801371363]
3ドルの登録アプローチでは、1000万ドル(107ドル)以上のポイントペアを、99%以上のランダムなアウトレイアで処理することができる。
我々はこの手法をTEARと呼び、Trncated Entry-wise Absolute Residualsを演算するoutlier-robust損失を最小限にする。
論文 参考訳(メタデータ) (2024-04-01T04:43:39Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。