論文の概要: Linear Complexity Randomized Self-attention Mechanism
- arxiv url: http://arxiv.org/abs/2204.04667v1
- Date: Sun, 10 Apr 2022 12:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 13:33:03.817608
- Title: Linear Complexity Randomized Self-attention Mechanism
- Title(参考訳): 線形複雑化ランダム自己注意機構
- Authors: Lin Zheng, Chong Wang and Lingpeng Kong
- Abstract要約: 近年,指数カーネルを線形化することにより,線形時間と空間の複雑さにおけるソフトマックスアテンションを近似するランダム特徴アテンション (RFA) が提案されている。
本稿では,RFAを自己正規化重要サンプルとして再キャストすることで,そのような近似のバイアスを理解する新しい視点を提案する。
我々は線形ランダムアテンション(LARA)と呼ばれる新しい線形複雑自己アテンション機構を開発する。
- 参考スコア(独自算出の注目度): 17.051490270250827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, random feature attentions (RFAs) are proposed to approximate the
softmax attention in linear time and space complexity by linearizing the
exponential kernel. In this paper, we first propose a novel perspective to
understand the bias in such approximation by recasting RFAs as self-normalized
importance samplers. This perspective further sheds light on an \emph{unbiased}
estimator for the whole softmax attention, called randomized attention (RA). RA
constructs positive random features via query-specific distributions and enjoys
greatly improved approximation fidelity, albeit exhibiting quadratic
complexity. By combining the expressiveness in RA and the efficiency in RFA, we
develop a novel linear complexity self-attention mechanism called linear
randomized attention (LARA). Extensive experiments across various domains
demonstrate that RA and LARA significantly improve the performance of RFAs by a
substantial margin.
- Abstract(参考訳): 近年,指数核を線形化することにより,線形時間と空間複雑性におけるソフトマックス注意を近似するランダム特徴注意法(rfas)が提案されている。
本稿では,RFAを自己正規化重要サンプルとして再キャストすることで,そのような近似のバイアスを理解する新しい視点を提案する。
この視点は、ランダムアテンション (RA) と呼ばれるソフトマックスアテンション全体に対する 'emph{unbiased} 推定器にさらに光を放つ。
RAは、クエリ固有の分布を通して正のランダムな特徴を構築し、近似の忠実度を大幅に改善するが、2次複雑性を示す。
RAの表現性とRFAの効率を組み合わせることで、線形ランダム化注意(LARA)と呼ばれる新しい線形複雑自己注意機構を開発する。
様々な領域にわたる大規模な実験により、RAとLARAはRFAの性能を大幅に改善することを示した。
関連論文リスト
- An In-depth Investigation of Sparse Rate Reduction in Transformer-like Models [32.04194224236952]
スパースレートリダクション(SRR)と呼ばれる情報理論目的関数を提案する。
SRRは正の相関係数を持ち、パスノルムやシャープネスベースなど他の基準値よりも優れていることを示す。
ベンチマーク画像分類データセットの正規化として,SRRを用いて一般化を改善することができることを示す。
論文 参考訳(メタデータ) (2024-11-26T07:44:57Z) - Mirror Descent on Reproducing Kernel Banach Spaces [12.716091600034543]
本稿では,再生カーネルを用いたバナッハ空間の学習問題に対処する。
再生カーネルを用いてバナッハ空間の双対空間における勾配ステップを利用するアルゴリズムを提案する。
実際にこのアルゴリズムをインスタンス化するために、$p$-normのRKBSの新しいファミリーを導入する。
論文 参考訳(メタデータ) (2024-11-18T02:18:32Z) - RLE: A Unified Perspective of Data Augmentation for Cross-Spectral Re-identification [59.5042031913258]
非線型モダリティの相違は主に、異なる材料の表面に作用する様々な線形変換に由来する。
本稿では,MRLE(Modrate Random Linear Enhancement)とRRLE(Radical Random Linear Enhancement)を含むRLE(Random Linear Enhancement)戦略を提案する。
実験結果は、RLEの優位性と有効性を示すだけでなく、クロススペクトル再同定のための汎用データ拡張としての可能性も確認した。
論文 参考訳(メタデータ) (2024-11-02T12:13:37Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - SFANet: Spatial-Frequency Attention Network for Weather Forecasting [54.470205739015434]
天気予報は様々な分野において重要な役割を担い、意思決定とリスク管理を推進している。
伝統的な手法は、しばしば気象系の複雑な力学を捉えるのに苦労する。
本稿では,これらの課題に対処し,天気予報の精度を高めるための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-29T08:00:15Z) - Efficient Attention via Control Variates [16.095058416053753]
ランダム特徴に基づくアテンション(RFA)は、線形実行時と空間の複雑さによるソフトマックスアテンションの効率的な近似である。
RFAと従来のソフトマックス・アテンションの近似ギャップを特徴付けるために, 従来のRFAの進歩に基づいて構築した。
我々のモデルは、視覚と言語の両方のタスクにおいて、最先端の効果的な注意機構より優れています。
論文 参考訳(メタデータ) (2023-02-09T10:16:20Z) - Simplex Random Features [53.97976744884616]
ソフトマックスおよびガウスカーネルの非バイアス近似のための新しいランダム特徴(RF)機構であるSimplex Random Features (SimRFs)を提案する。
我々は,これらのカーネルの非バイアス推定値に対して,SimRFが最小平均二乗誤差(MSE)を提供することを示す。
ポイントワイドカーネル推定,非パラメトリック分類,スケーラブルトランスフォーマーなどの設定において,SimRFによる一貫したゲインを示す。
論文 参考訳(メタデータ) (2023-01-31T18:53:39Z) - Overparameterized random feature regression with nearly orthogonal data [21.97381518762387]
本研究では,2層ニューラルネットワークによるランダム特徴リッジ回帰(RFRR)の非漸近挙動について検討した。
我々の結果は、ほぼ決定論的性質を示す様々なアクティベーション関数と入力データセットに対して成り立っている。
論文 参考訳(メタデータ) (2022-11-11T09:16:25Z) - Hybrid Random Features [60.116392415715275]
ハイブリッドランダム特徴(HRF)と呼ばれるソフトマックスとガウス核の線形化のための新しいランダム特徴法を提案する。
HRFは、カーネル推定の品質を自動的に適応し、定義された関心領域の最も正確な近似を提供する。
論文 参考訳(メタデータ) (2021-10-08T20:22:59Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。