論文の概要: Efficient Attention via Control Variates
- arxiv url: http://arxiv.org/abs/2302.04542v1
- Date: Thu, 9 Feb 2023 10:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 16:10:10.093405
- Title: Efficient Attention via Control Variates
- Title(参考訳): 制御変数による効率的な注意
- Authors: Lin Zheng and Jianbo Yuan and Chong Wang and Lingpeng Kong
- Abstract要約: ランダム特徴に基づくアテンション(RFA)は、線形実行時と空間の複雑さによるソフトマックスアテンションの効率的な近似である。
RFAと従来のソフトマックス・アテンションの近似ギャップを特徴付けるために, 従来のRFAの進歩に基づいて構築した。
我々のモデルは、視覚と言語の両方のタスクにおいて、最先端の効果的な注意機構より優れています。
- 参考スコア(独自算出の注目度): 16.095058416053753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random-feature-based attention (RFA) is an efficient approximation of softmax
attention with linear runtime and space complexity. However, the approximation
gap between RFA and conventional softmax attention is not well studied. Built
upon previous progress of RFA, we characterize this gap through the lens of
control variates and show that RFA can be decomposed into a sum of multiple
control variate estimators for each element in the sequence. This new framework
reveals that exact softmax attention can be recovered from RFA by manipulating
each control variate. Besides, it allows us to develop a more flexible form of
control variates, resulting in a novel attention mechanism that significantly
reduces the approximation gap while maintaining linear complexity. Extensive
experiments demonstrate that our model outperforms state-of-the-art efficient
attention mechanisms on both vision and language tasks.
- Abstract(参考訳): ランダム特徴に基づくアテンション(RFA)は、線形実行時と空間の複雑さによるソフトマックスアテンションの効率的な近似である。
しかし、RFAと従来のソフトマックスアテンションの近似ギャップはよく研究されていない。
RFAの以前の進歩に基づいて、制御変数のレンズを通してこのギャップを特徴づけ、シーケンスの各要素に対する複数の制御変数推定器の和に分解可能であることを示す。
この新たなフレームワークは、各制御変数を操作することにより、正確にソフトマックスの注意をRFAから回収できることを明らかにする。
さらに、より柔軟な制御可変量の開発を可能にし、線形複雑性を維持しながら近似ギャップを大幅に削減する新しい注意メカニズムを生み出しました。
広範な実験により,視覚タスクと言語タスクの両方において,最先端の効果的な注意機構よりも優れたモデルが得られた。
関連論文リスト
- Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Rethinking Attention Mechanism in Time Series Classification [6.014777261874646]
我々は、フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより、アテンション機構の効率性と性能を向上する。
本稿では,時系列におけるノイズの影響を低減し,FMLAの冗長性を低減できる簡易だが効果的なマスク機構を提案する。
85のUCR2018データセットを用いて、このアルゴリズムを11のよく知られたデータセットと比較し、このアルゴリズムがトップ1の精度で同等の性能を持つことを示す。
論文 参考訳(メタデータ) (2022-07-14T07:15:06Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Linear Complexity Randomized Self-attention Mechanism [17.051490270250827]
近年,指数カーネルを線形化することにより,線形時間と空間の複雑さにおけるソフトマックスアテンションを近似するランダム特徴アテンション (RFA) が提案されている。
本稿では,RFAを自己正規化重要サンプルとして再キャストすることで,そのような近似のバイアスを理解する新しい視点を提案する。
我々は線形ランダムアテンション(LARA)と呼ばれる新しい線形複雑自己アテンション機構を開発する。
論文 参考訳(メタデータ) (2022-04-10T12:10:28Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Capturing Multi-Resolution Context by Dilated Self-Attention [58.69803243323346]
限定的自己意識と拡張メカニズムの組み合わせを提案し,これを拡張的自己意識と呼ぶ。
制限された自己注意は、高分解能でクエリの隣接するフレームに注意を払い、拡張メカニズムは、より低い解像度でそれに出席できるように遠方の情報を要約します。
ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。
論文 参考訳(メタデータ) (2021-04-07T02:04:18Z) - Random Feature Attention [69.4671822971207]
ソフトマックス関数を近似するためにランダム特徴法を用いる線形時間空間アテンション RFA を提案する。
RFAは、従来のソフトマックスアテンションのドロップイン代替として使用することができ、オプションのゲーティング機構を通じて、遅延バイアスで直接学習する方法を提供する。
言語モデリングと機械翻訳の実験は、RFAが強力なトランスのベースラインと類似またはより良いパフォーマンスを達成することを実証します。
論文 参考訳(メタデータ) (2021-03-03T02:48:56Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。