Fugu-MT 論文翻訳(概要): MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers

論文の概要: MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers

arxiv url: http://arxiv.org/abs/2411.12992v1
Date: Wed, 20 Nov 2024 02:41:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.340525
Title: MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers
Title（参考訳）: MemoryFormer: 完全接続層を削除したトランスフォーマー計算の最小化
Authors: Ning Ding, Yehui Tang, Haochen Qin, Zhenli Zhou, Chao Xu, Lin Li, Kai Han, Heng Liao, Yunhe Wang,
Abstract要約: 本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する,新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。提案手法の有効性を示すため,様々なベンチマーク実験を行った。
参考スコア（独自算出の注目度）: 43.39466934693055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In order to reduce the computational complexity of large language models, great efforts have been made to to improve the efficiency of transformer models such as linear attention and flash-attention. However, the model size and corresponding computational complexity are constantly scaled up in pursuit of higher performance. In this work, we present MemoryFormer, a novel transformer architecture which significantly reduces the computational complexity (FLOPs) from a new perspective. We eliminate nearly all the computations of the transformer model except for the necessary computation required by the multi-head attention operation. This is made possible by utilizing an alternative method for feature transformation to replace the linear projection of fully-connected layers. Specifically, we first construct a group of in-memory lookup tables that store a large amount of discrete vectors to replace the weight matrix used in linear projection. We then use a hash algorithm to retrieve a correlated subset of vectors dynamically based on the input embedding. The retrieved vectors combined together will form the output embedding, which provides an estimation of the result of matrix multiplication operation in a fully-connected layer. Compared to conducting matrix multiplication, retrieving data blocks from memory is a much cheaper operation which requires little computations. We train MemoryFormer from scratch and conduct extensive experiments on various benchmarks to demonstrate the effectiveness of the proposed model.
Abstract（参考訳）: 大規模言語モデルの計算複雑性を低減するため,線形アテンションやフラッシュアテンションといったトランスフォーマーモデルの効率向上に多大な努力が払われている。しかし、モデルサイズとそれに対応する計算複雑性は、高い性能を追求するために常にスケールアップされる。本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。マルチヘッドアテンション操作で必要となる計算を除いて,変換器モデルのほぼ全ての計算を除去する。これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。具体的には、まず、線形射影に使用される重み行列を置き換えるために、大量の離散ベクトルを格納するインメモリルックアップテーブル群を構築する。次に、ハッシュアルゴリズムを用いて、入力埋め込みに基づいてベクトルの関連部分集合を動的に検索する。得られたベクトルを組み合わせれば出力埋め込みを形成し、完全に連結された層における行列乗算演算の結果を推定する。行列乗算の実行と比較すると、メモリからデータブロックを取得することは、計算がほとんど必要としない、はるかに安価な操作である。我々はMemoryFormerをスクラッチからトレーニングし、様々なベンチマークで広範な実験を行い、提案モデルの有効性を実証する。

関連論文リスト

Low-Bit Integerization of Vision Transformers using Operand Reordering for Efficient Hardware [0.7136205674624813]
計算グラフを解析し,演算再順序付けに基づく整数化プロセスを提案する。これにより、量子化入力を直接処理することで、整数化行列乗法と線形加群が実現される。実験結果から, 線形層と行列乗算のPE当たりの消費電力は, 低ビット推論により減少することがわかった。
論文参考訳（メタデータ） (2025-04-11T16:09:54Z)
LLM Inference Acceleration via Efficient Operation Fusion [1.350507740574158]
Transformer-based Large Language Models (LLM) は数十億のパラメータを含み、トレーニングと推論に専用のハードウェアリソースを必要とする。 Transformerアーキテクチャに固有の重要な課題の1つは、多くの非線形変換をサポートする必要性である。このような集団的操作によるオーバーヘッドを完全に隠蔽できる極めて効率的な手法を提案する。
論文参考訳（メタデータ） (2025-02-24T23:42:37Z)
A Simple Sparse Matrix Vector Multiplication Approach to Padded Convolution [0.0]
スパース変換行列としてゼロパディングとストライドによる畳み込みを効率的に表現するアルゴリズムを提案する。コンボリューション操作におけるスパーシリティを活用する可能性についての洞察を提供するとともに、ストライドおよびパディングとの畳み込みにおけるゼロでない乗算数の明示的な表現を提供する。
論文参考訳（メタデータ） (2024-11-29T00:14:24Z)
SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文参考訳（メタデータ） (2024-11-23T21:43:38Z)
Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文参考訳（メタデータ） (2024-08-23T17:16:43Z)
Scaling Efficient LLMs [0.0]
変圧器の「AIスケーリング法則」は、パラメータの数はデータのサイズと線形にスケールする必要があることを示唆している。本稿では,リカレント変圧器と再カレントネットワークの有効性を組み合わせた再カレント変圧器を提案する。
論文参考訳（メタデータ） (2024-02-22T18:06:19Z)
An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-30T15:57:14Z)
SPION: Layer-Wise Sparse Training of Transformer via Convolutional Flood Filling [1.0128808054306186]
本稿では,畳み込みフィルタとフラッドフィリング法を統合したトランスフォーマーの新しいスペーサー方式を提案する。我々のスパーシフィケーションアプローチは、トレーニング中のTransformerの計算複雑性とメモリフットプリントを低減する。 New SPIONは、既存の最先端スパーストランスモデルよりも最大3.08倍のスピードアップを実現している。
論文参考訳（メタデータ） (2023-09-22T02:14:46Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。 MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文参考訳（メタデータ） (2022-03-23T18:10:18Z)
Memory-Efficient Backpropagation through Large Linear Layers [107.20037639738433]
Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。本研究では,線形層によるバックプロパゲーションを実現するためのメモリ削減手法を提案する。
論文参考訳（メタデータ） (2022-01-31T13:02:41Z)
Sketching Transformed Matrices with Applications to Natural Language Processing [76.6222695417524]
本稿では, 変換行列を用いて, 与えられた小さな行列の積を計算するための空間効率のよいスケッチアルゴリズムを提案する。提案手法は誤差が小さく,空間と時間の両方で効率がよいことを示す。
論文参考訳（メタデータ） (2020-02-23T03:07:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。