論文の概要: AttMEMO : Accelerating Transformers with Memoization on Big Memory
Systems
- arxiv url: http://arxiv.org/abs/2301.09262v2
- Date: Mon, 17 Apr 2023 20:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 17:44:38.351561
- Title: AttMEMO : Accelerating Transformers with Memoization on Big Memory
Systems
- Title(参考訳): AttMEMO : 大容量メモリシステムにおけるメモリ化による変圧器の高速化
- Authors: Yuan Feng, Hyeran Jeon, Filip Blagojevic, Cyril Guyot, Qing Li, and
Dong Li
- Abstract要約: 本稿では,意味的に類似した入力を見つけ,計算の類似性を識別する新しい埋め込み手法を提案する。
推論精度の低下を無視して,平均で22%(最大68%)の推論遅延低減を可能にする。
- 参考スコア(独自算出の注目度): 10.585040856070941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models gain popularity because of their superior inference
accuracy and inference throughput. However, the transformer is
computation-intensive, causing a long inference time. The existing works on
transformer inference acceleration have limitations caused by either the
modification of transformer architectures or the need of specialized hardware.
In this paper, we identify the opportunities of using memoization to accelerate
the self-attention mechanism in transformers without the above limitations.
Built upon a unique observation that there is rich similarity in attention
computation across inference sequences, we build a memoization database that
leverages the emerging big memory system. We introduce a novel embedding
technique to find semantically similar inputs to identify computation
similarity. We also introduce a series of techniques such as memory mapping and
selective memoization to avoid memory copy and unnecessary overhead. We enable
22% inference-latency reduction on average (up to 68%) with negligible loss in
inference accuracy.
- Abstract(参考訳): トランスフォーマーモデルは、推論精度と推論スループットが優れているため人気がある。
しかし、変換器は計算集約的であり、長い推測時間を引き起こす。
トランスフォーマー推論アクセラレーションに関する既存の研究は、トランスフォーマーアーキテクチャの変更や特別なハードウェアの必要性によって生じる制限がある。
本稿では,上述の制約を伴わない変圧器の自己着脱機構の高速化にメモ化を利用する機会を明らかにする。
推論シーケンスにまたがる注意計算に高い類似性があるというユニークな観察に基づいて,新たに出現する巨大メモリシステムを活用したメモ化データベースを構築した。
本稿では,意味的に類似した入力を見つけ,計算の類似性を識別する新しい埋め込み手法を提案する。
また,メモリのコピーや不要なオーバーヘッドを回避するため,メモリマッピングや選択的メモ化といった手法も紹介する。
22%の推論遅延を平均(最大68%)で削減できるが、推論精度は無視できる。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - AtMan: Understanding Transformer Predictions Through Memory Efficient
Attention Manipulation [25.577132500246886]
我々はAtManについて紹介する。AtManは、生成トランスフォーマーモデルの説明を、ほとんど余分なコストで提供する。
AtManは、変換器の注意機構を操作して、入力の関連マップを生成するモード依存摂動法である。
テキストと画像テキストのベンチマーク実験により、AtManはいくつかのメトリクスで現在の最先端の勾配に基づく手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-01-19T15:01:00Z) - Recurrent Memory Transformer [0.3529736140137003]
メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。
我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
論文 参考訳(メタデータ) (2022-07-14T13:00:22Z) - Couplformer:Rethinking Vision Transformer with Coupling Attention Map [7.789667260916264]
Transformerモデルはコンピュータビジョン領域において優れた性能を示した。
本稿では,2つのサブ行列にアテンションマップを分割する,Couplformerという新しいメモリエコノミーアテンション機構を提案する。
実験の結果、Couplformerは通常のTransformerに比べて28%のメモリ消費を著しく削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T10:05:35Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。