論文の概要: AtMan: Understanding Transformer Predictions Through Memory Efficient
Attention Manipulation
- arxiv url: http://arxiv.org/abs/2301.08110v1
- Date: Thu, 19 Jan 2023 15:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-20 14:59:53.575083
- Title: AtMan: Understanding Transformer Predictions Through Memory Efficient
Attention Manipulation
- Title(参考訳): AtMan: メモリ効率の良いアテンション操作によるトランスフォーマー予測の理解
- Authors: Mayukh Deb, Bj\"orn Deiseroth, Samuel Weinbach, Patrick Schramowski,
Kristian Kersting
- Abstract要約: 我々はAtManについて紹介する。AtManは、生成トランスフォーマーモデルの説明を、ほとんど余分なコストで提供する。
AtManは、変換器の注意機構を操作して、入力の関連マップを生成するモード依存摂動法である。
テキストと画像テキストのベンチマーク実験により、AtManはいくつかのメトリクスで現在の最先端の勾配に基づく手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 17.119616029527744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative transformer models have become increasingly complex, with large
numbers of parameters and the ability to process multiple input modalities.
Current methods for explaining their predictions are resource-intensive. Most
crucially, they require prohibitively large amounts of extra memory, since they
rely on backpropagation which allocates almost twice as much GPU memory as the
forward pass. This makes it difficult, if not impossible, to use them in
production. We present AtMan that provides explanations of generative
transformer models at almost no extra cost. Specifically, AtMan is a
modality-agnostic perturbation method that manipulates the attention mechanisms
of transformers to produce relevance maps for the input with respect to the
output prediction. Instead of using backpropagation, AtMan applies a
parallelizable token-based search method based on cosine similarity
neighborhood in the embedding space. Our exhaustive experiments on text and
image-text benchmarks demonstrate that AtMan outperforms current
state-of-the-art gradient-based methods on several metrics while being
computationally efficient. As such, AtMan is suitable for use in large model
inference deployments.
- Abstract(参考訳): 生成トランスモデルは、多数のパラメータと複数の入力モダリティを処理する能力によって、ますます複雑になっている。
現在の予測手法はリソース集約型である。
最も重要なのは、フォワードパスの約2倍のGPUメモリを割り当てるバックプロパゲーションに依存するため、極めて大量の余分なメモリを必要とすることだ。
そのため、プロダクションで使用するのは不可能ではないにせよ、難しい。
AtManは、生成トランスモデルの説明を、ほとんど余分なコストで提供します。
特に、AtManは、変換器の注意機構を制御し、出力予測に対する入力の関連マップを生成するモーダル非依存摂動法である。
バックプロパゲーションを使う代わりに、atmanは埋め込み空間内のコサイン類似性近傍に基づく並列化可能なトークンベースの検索手法を適用する。
テキストと画像テキストのベンチマークを徹底的に実験した結果、atmanは計算効率を保ちつつ、いくつかのメトリクスで現在の最先端のグラデーションベース手法よりも優れています。
そのため、AtManは大規模なモデル推論デプロイメントでの使用に適している。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - When to Use Efficient Self Attention? Profiling Text, Speech and Image
Transformer Variants [39.00433193973159]
本研究は,テキスト,音声,視覚にまたがる自己注意型トランスフォーマーの効率性に関する,最初の統一的研究である。
効率の良いトランスフォーマー変種がバニラモデルよりも効率的になる入力長閾値(タイピング点)を同定する。
そこで本研究では,L-HuBERTを導入した。L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L-HuBERT,L -HuBERT,L-H
論文 参考訳(メタデータ) (2023-06-14T17:59:02Z) - Scaling Transformer to 1M tokens and beyond with RMT [5.60052250541419]
変圧器によって解ける問題の範囲の広い大きな制限は、入力サイズによる計算複雑性の2次スケーリングである。
本研究では,入力コンテキスト長を線形にスケーリングしながら,事前学習したトランスフォーマーモデルの繰り返しメモリ拡張について検討する。
提案手法は,検索精度を高く保ちつつ,前例のない200万トークンのシーケンスの情報をメモリに格納できることを実証する。
論文 参考訳(メタデータ) (2023-04-19T16:18:54Z) - AttMEMO : Accelerating Transformers with Memoization on Big Memory
Systems [10.585040856070941]
本稿では,意味的に類似した入力を見つけ,計算の類似性を識別する新しい埋め込み手法を提案する。
推論精度の低下を無視して,平均で22%(最大68%)の推論遅延低減を可能にする。
論文 参考訳(メタデータ) (2023-01-23T04:24:26Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。