論文の概要: BLAST: Block-Level Adaptive Structured Matrices for Efficient Deep Neural Network Inference
- arxiv url: http://arxiv.org/abs/2410.21262v2
- Date: Wed, 30 Oct 2024 00:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 09:40:47.393963
- Title: BLAST: Block-Level Adaptive Structured Matrices for Efficient Deep Neural Network Inference
- Title(参考訳): BLAST:効率的なディープニューラルネットワーク推論のためのブロックレベル適応型構造行列
- Authors: Changwoo Lee, Soo Min Kwon, Qing Qu, Hun-Seok Kim,
- Abstract要約: 本稿では,Block-Level Adaptive STructured (BLAST) 行列を導入し,ディープラーニングモデルにおける線形層の重み行列に代表される効率的な構造を学習・活用する。
言語と視覚の両方のタスクを圧縮するために行列を用いることの効率を実証する。
- 参考スコア(独自算出の注目度): 15.519068157865023
- License:
- Abstract: Large-scale foundation models have demonstrated exceptional performance in language and vision tasks. However, the numerous dense matrix-vector operations involved in these large networks pose significant computational challenges during inference. To address these challenges, we introduce the Block-Level Adaptive STructured (BLAST) matrix, designed to learn and leverage efficient structures prevalent in the weight matrices of linear layers within deep learning models. Compared to existing structured matrices, the BLAST matrix offers substantial flexibility, as it can represent various types of structures that are either learned from data or computed from pre-existing weight matrices. We demonstrate the efficiency of using the BLAST matrix for compressing both language and vision tasks, showing that (i) for medium-sized models such as ViT and GPT-2, training with BLAST weights boosts performance while reducing complexity by 70% and 40%, respectively; and (ii) for large foundation models such as Llama-7B and DiT-XL, the BLAST matrix achieves a 2x compression while exhibiting the lowest performance degradation among all tested structured matrices. Our code is available at https://github.com/changwoolee/BLAST.
- Abstract(参考訳): 大規模基盤モデルは、言語および視覚タスクにおいて例外的な性能を示した。
しかし、これらの大規模ネットワークに関わる多くの密度行列ベクトル演算は、推論中に重大な計算上の問題を引き起こす。
これらの課題に対処するため,深層学習モデルにおける線形層の重み行列に代表される効率的な構造を学習・活用するBlock-Level Adaptive STructured (BLAST)行列を導入した。
既存の構造行列と比較して、BLAST行列はデータから学習されたり、既存の重量行列から計算されたりする様々な種類の構造を表現することができるため、かなり柔軟性がある。
言語と視覚の両方のタスクを圧縮するためにBLAST行列を用いることの効率を実証し、その有効性を示す。
i) ViT や GPT-2 のような中型モデルの場合,BLAST の重み付けによるトレーニングは,複雑性を70% と 40% に低下させ,性能を向上させる。
(II) Llama-7B や DiT-XL のような大規模基礎モデルでは, BLAST 行列は2倍の圧縮を達成し, 試験された全ての構造化行列の中で最低性能劣化を示した。
私たちのコードはhttps://github.com/changwoolee/BLAST.comで公開されています。
関連論文リスト
- Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices [88.33936714942996]
アインシュタイン和を通じて表現可能なすべての線形作用素の探索を可能にする統一フレームワークを提案する。
計算-最適スケーリング法則の違いは主に少数の変数によって支配されていることを示す。
そこで,Mixture-of-Experts (MoE) は,注目ブロックの投影を含む,モデルのすべての線形層におけるMoEを学習する。
論文 参考訳(メタデータ) (2024-10-03T00:44:50Z) - Two Sparse Matrices are Better than One: Sparsifying Neural Networks with Double Sparse Factorization [0.0]
重み行列を2つのスパース行列に分解するDouble Sparse Factorization(DSF)を提案する。
提案手法は最先端の結果を達成し,従来のニューラルネットワークのスペーサー化を可能にした。
論文 参考訳(メタデータ) (2024-09-27T15:48:39Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Differentiable Learning of Generalized Structured Matrices for Efficient
Deep Neural Networks [16.546708806547137]
本稿では,高密度非構造体を所望の特性を持つ構造体に置き換えるための効率的なディープニューラルネットワーク(DNN)について検討する。
この課題は、一般的なニューラルネットワークモデルにおける最適な重み行列構造がほとんどの場合不明瞭であり、同じネットワークであっても層ごとに異なるためである。
本稿では,勾配降下による重み行列の効率的な構造を学習するための一般化および微分可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-29T03:07:30Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z) - Block-encoding based quantum algorithm for linear systems with
displacement structures [4.145426157018113]
本稿では, 変位構造を持つ線形系を解くために, 効率よく, メモリリデュースした量子アルゴリズムを提案する。
提案したブロックエンコーディングは、古典的アルゴリズムの次元に関して二次的なスピードアップを提供する。
量子線形系の解法の一つを時系列の線形予測に適用する。
論文 参考訳(メタデータ) (2019-12-27T16:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。