論文の概要: MEMO : Accelerating Transformers with Memoization on Big Memory Systems
- arxiv url: http://arxiv.org/abs/2301.09262v1
- Date: Mon, 23 Jan 2023 04:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 14:09:35.550656
- Title: MEMO : Accelerating Transformers with Memoization on Big Memory Systems
- Title(参考訳): MEMO : 大きなメモリシステムにおけるメモリ化による変圧器の高速化
- Authors: Yuan Feng, Hyeran Jeon, Filip Blagojevic, Cyril Guyot, Qing Li, and
Dong Li
- Abstract要約: 我々は,特殊なハードウェアを必要とせずに,変圧器の注意機構を高速化するためにメモ化を利用する。
我々は,新たな大型メモリシステム上にアテンションデータベースを構築した。
TBスケールのアテンションデータベースで平均21%の性能向上(最大68%)が可能であり,推測精度の低下も無視できる。
- 参考スコア(独自算出の注目度): 10.585040856070941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers gain popularity because of their superior prediction accuracy
and inference throughput. However, the transformer is computation-intensive,
causing a long inference time. The existing work to accelerate transformer
inferences has limitations because of the changes to transformer architectures
or the need for specialized hardware. In this paper, we identify the
opportunities of using memoization to accelerate the attention mechanism in
transformers without the above limitation. Built upon a unique observation that
there is a rich similarity in attention computation across inference sequences,
we build an attention database upon the emerging big memory system. We
introduce the embedding technique to find semantically similar inputs to
identify computation similarity. We also introduce a series of techniques such
as memory mapping and selective memoization to avoid memory copy and
unnecessary overhead. We enable 21% performance improvement on average (up to
68%) with the TB-scale attention database and with ignorable loss in inference
accuracy.
- Abstract(参考訳): トランスフォーマーは予測精度と推論スループットが優れているため人気がある。
しかし、変換器は計算集約的であり、長い推測時間を引き起こす。
トランスフォーマーの推論を加速する既存の作業には、トランスフォーマーアーキテクチャの変更や特別なハードウェアの必要性のために制限がある。
本稿では,上述の制限を伴わない変圧器における注意機構の高速化にメモ化を利用する機会を明らかにする。
推論シーケンスにまたがる注意計算に高い類似性があるという独自の観察に基づいて,新たに出現する巨大メモリシステム上に注意データベースを構築する。
本稿では,意味的に類似した入力を見つけるために埋め込み手法を導入し,計算の類似性を同定する。
また,メモリのコピーや不要なオーバーヘッドを回避するため,メモリマッピングや選択的メモ化といった手法も紹介する。
TBスケールのアテンションデータベースで平均21%の性能向上(最大68%)が可能であり,推測精度の低下も無視できる。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - AtMan: Understanding Transformer Predictions Through Memory Efficient Attention Manipulation [23.505887455448928]
我々はAtManについて紹介する。AtManは、生成トランスフォーマーモデルの説明を、ほとんど余分なコストで提供する。
AtManは、変換器の注意機構を操作して、入力の関連マップを生成するモード依存摂動法である。
テキストと画像テキストのベンチマーク実験により、AtManはいくつかのメトリクスで現在の最先端の勾配に基づく手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-01-19T15:01:00Z) - Recurrent Memory Transformer [0.3529736140137003]
メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。
我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
論文 参考訳(メタデータ) (2022-07-14T13:00:22Z) - Couplformer:Rethinking Vision Transformer with Coupling Attention Map [7.789667260916264]
Transformerモデルはコンピュータビジョン領域において優れた性能を示した。
本稿では,2つのサブ行列にアテンションマップを分割する,Couplformerという新しいメモリエコノミーアテンション機構を提案する。
実験の結果、Couplformerは通常のTransformerに比べて28%のメモリ消費を著しく削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T10:05:35Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。