論文の概要: Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement
- arxiv url: http://arxiv.org/abs/2505.21535v1
- Date: Sat, 24 May 2025 02:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.135534
- Title: Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement
- Title(参考訳): 変圧器の推論には注意が必要か?
- Authors: Yuxin Ren, Maxwell D Collins, Miao Hu, Huanrui Yang,
- Abstract要約: 本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
- 参考スコア(独自算出の注目度): 13.38679135071682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While transformers excel across vision and language pretraining tasks, their reliance on attention mechanisms poses challenges for inference efficiency, especially on edge and embedded accelerators with limited parallelism and memory bandwidth. Hinted by the observed redundancy of attention at inference time, we hypothesize that though the model learns complicated token dependency through pretraining, the inference-time sequence-to-sequence mapping in each attention layer is actually ''simple'' enough to be represented with a much cheaper function. In this work, we explore FAR, a Function-preserving Attention Replacement framework that replaces all attention blocks in pretrained transformers with learnable sequence-to-sequence modules, exemplified by an LSTM. FAR optimize a multi-head LSTM architecture with a block-wise distillation objective and a global structural pruning framework to achieve a family of efficient LSTM-based models from pretrained transformers. We validate FAR on the DeiT vision transformer family and demonstrate that it matches the accuracy of the original models on ImageNet and multiple downstream tasks with reduced parameters and latency. Further analysis shows that FAR preserves the semantic token relationships and the token-to-token correlation learned in the transformer's attention module.
- Abstract(参考訳): トランスフォーマーは視覚と言語の事前訓練タスクに優れるが、注意機構への依存は推論効率、特に並列性やメモリ帯域幅に制限のあるエッジや組み込みアクセラレーターに課題をもたらす。
推定時の注意の冗長性から,事前学習によって複雑なトークン依存性を学習するが,各注意層における推論時シーケンス・ツー・シーケンスマッピングは,より安価な関数で表すのに十分な「単純」である,という仮説を立てる。
本研究では,プリトレーニングされたトランスフォーマーのすべてのアテンションブロックをLSTMで例示した,学習可能なシーケンス・ツー・シーケンスモジュールに置き換える関数保存型アテンション・リプレースメントフレームワークであるFARについて検討する。
FARはマルチヘッドLSTMアーキテクチャをブロックワイズ蒸留目標とグローバルな構造解析フレームワークで最適化し、事前訓練されたトランスフォーマーから効率的なLSTMモデル群を実現する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
さらに分析したところ、FARはトランスフォーマーのアテンションモジュールで得られた意味トークン関係とトークン間相関を保存していることがわかった。
関連論文リスト
- Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction [29.12836710966048]
本稿では,トークン数に応じて計算複雑性が線形にスケールする新しいトランスフォーマーアテンション演算子を提案する。
本研究は, トランスフォーマーアーキテクチャの成功に対して, ペアワイズ類似性スタイルの注意機構が重要であるという従来の知恵に疑問を投げかけるものである。
論文 参考訳(メタデータ) (2024-12-23T18:59:21Z) - Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0]
本稿では,2つの革新点を持つトランスフォーマーアーキテクチャを提案する。
提案手法をREDDデータセット上で検証し, 各種アプライアンスに対してF1スコアを10~15%向上させる結果を得た。
論文 参考訳(メタデータ) (2024-10-12T18:58:45Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。
特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。
このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文 参考訳(メタデータ) (2023-11-20T17:35:44Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。