論文の概要: MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers
- arxiv url: http://arxiv.org/abs/2411.12992v1
- Date: Wed, 20 Nov 2024 02:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:39.880401
- Title: MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers
- Title(参考訳): MemoryFormer: 完全接続層を削除したトランスフォーマー計算の最小化
- Authors: Ning Ding, Yehui Tang, Haochen Qin, Zhenli Zhou, Chao Xu, Lin Li, Kai Han, Heng Liao, Yunhe Wang,
- Abstract要約: 本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する,新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。
これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。
提案手法の有効性を示すため,様々なベンチマーク実験を行った。
- 参考スコア(独自算出の注目度): 43.39466934693055
- License:
- Abstract: In order to reduce the computational complexity of large language models, great efforts have been made to to improve the efficiency of transformer models such as linear attention and flash-attention. However, the model size and corresponding computational complexity are constantly scaled up in pursuit of higher performance. In this work, we present MemoryFormer, a novel transformer architecture which significantly reduces the computational complexity (FLOPs) from a new perspective. We eliminate nearly all the computations of the transformer model except for the necessary computation required by the multi-head attention operation. This is made possible by utilizing an alternative method for feature transformation to replace the linear projection of fully-connected layers. Specifically, we first construct a group of in-memory lookup tables that store a large amount of discrete vectors to replace the weight matrix used in linear projection. We then use a hash algorithm to retrieve a correlated subset of vectors dynamically based on the input embedding. The retrieved vectors combined together will form the output embedding, which provides an estimation of the result of matrix multiplication operation in a fully-connected layer. Compared to conducting matrix multiplication, retrieving data blocks from memory is a much cheaper operation which requires little computations. We train MemoryFormer from scratch and conduct extensive experiments on various benchmarks to demonstrate the effectiveness of the proposed model.
- Abstract(参考訳): 大規模言語モデルの計算複雑性を低減するため,線形アテンションやフラッシュアテンションといったトランスフォーマーモデルの効率向上に多大な努力が払われている。
しかし、モデルサイズとそれに対応する計算複雑性は、高い性能を追求するために常にスケールアップされる。
本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。
マルチヘッドアテンション操作で必要となる計算を除いて,変換器モデルのほぼ全ての計算を除去する。
これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。
具体的には、まず、線形射影に使用される重み行列を置き換えるために、大量の離散ベクトルを格納するインメモリルックアップテーブル群を構築する。
次に、ハッシュアルゴリズムを用いて、入力埋め込みに基づいてベクトルの関連部分集合を動的に検索する。
得られたベクトルを組み合わせれば出力埋め込みを形成し、完全に連結された層における行列乗算演算の結果を推定する。
行列乗算の実行と比較すると、メモリからデータブロックを取得することは、計算がほとんど必要としない、はるかに安価な操作である。
我々はMemoryFormerをスクラッチからトレーニングし、様々なベンチマークで広範な実験を行い、提案モデルの有効性を実証する。
関連論文リスト
- Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood
Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。
我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。
New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-09-22T02:14:46Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。
本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T13:02:41Z) - Sketching Transformed Matrices with Applications to Natural Language
Processing [76.6222695417524]
本稿では, 変換行列を用いて, 与えられた小さな行列の積を計算するための空間効率のよいスケッチアルゴリズムを提案する。
提案手法は誤差が小さく,空間と時間の両方で効率がよいことを示す。
論文 参考訳(メタデータ) (2020-02-23T03:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。