論文の概要: Linear Complexity Randomized Self-attention Mechanism
- arxiv url: http://arxiv.org/abs/2204.04667v1
- Date: Sun, 10 Apr 2022 12:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 13:33:03.817608
- Title: Linear Complexity Randomized Self-attention Mechanism
- Title(参考訳): 線形複雑化ランダム自己注意機構
- Authors: Lin Zheng, Chong Wang and Lingpeng Kong
- Abstract要約: 近年,指数カーネルを線形化することにより,線形時間と空間の複雑さにおけるソフトマックスアテンションを近似するランダム特徴アテンション (RFA) が提案されている。
本稿では,RFAを自己正規化重要サンプルとして再キャストすることで,そのような近似のバイアスを理解する新しい視点を提案する。
我々は線形ランダムアテンション(LARA)と呼ばれる新しい線形複雑自己アテンション機構を開発する。
- 参考スコア(独自算出の注目度): 17.051490270250827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, random feature attentions (RFAs) are proposed to approximate the
softmax attention in linear time and space complexity by linearizing the
exponential kernel. In this paper, we first propose a novel perspective to
understand the bias in such approximation by recasting RFAs as self-normalized
importance samplers. This perspective further sheds light on an \emph{unbiased}
estimator for the whole softmax attention, called randomized attention (RA). RA
constructs positive random features via query-specific distributions and enjoys
greatly improved approximation fidelity, albeit exhibiting quadratic
complexity. By combining the expressiveness in RA and the efficiency in RFA, we
develop a novel linear complexity self-attention mechanism called linear
randomized attention (LARA). Extensive experiments across various domains
demonstrate that RA and LARA significantly improve the performance of RFAs by a
substantial margin.
- Abstract(参考訳): 近年,指数核を線形化することにより,線形時間と空間複雑性におけるソフトマックス注意を近似するランダム特徴注意法(rfas)が提案されている。
本稿では,RFAを自己正規化重要サンプルとして再キャストすることで,そのような近似のバイアスを理解する新しい視点を提案する。
この視点は、ランダムアテンション (RA) と呼ばれるソフトマックスアテンション全体に対する 'emph{unbiased} 推定器にさらに光を放つ。
RAは、クエリ固有の分布を通して正のランダムな特徴を構築し、近似の忠実度を大幅に改善するが、2次複雑性を示す。
RAの表現性とRFAの効率を組み合わせることで、線形ランダム化注意(LARA)と呼ばれる新しい線形複雑自己注意機構を開発する。
様々な領域にわたる大規模な実験により、RAとLARAはRFAの性能を大幅に改善することを示した。
関連論文リスト
- Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Universality of Linear Recurrences Followed by Non-linear Projections:
Finite-Width Guarantees and Benefits of Complex Eigenvalues [35.17209370064094]
線形複素数値RNNと線形対角線再帰を組み合わせれば、逐次列列マップの任意の精度で近似できることを示す。
我々は、単位ディスクの近くに複雑な固有値(すなわち、SSMにおいて最も成功した戦略)を採用することが、情報を保存する上で、RNNに大いに役立つことを証明した。
論文 参考訳(メタデータ) (2023-07-21T20:09:06Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Efficient Attention via Control Variates [16.095058416053753]
ランダム特徴に基づくアテンション(RFA)は、線形実行時と空間の複雑さによるソフトマックスアテンションの効率的な近似である。
RFAと従来のソフトマックス・アテンションの近似ギャップを特徴付けるために, 従来のRFAの進歩に基づいて構築した。
我々のモデルは、視覚と言語の両方のタスクにおいて、最先端の効果的な注意機構より優れています。
論文 参考訳(メタデータ) (2023-02-09T10:16:20Z) - Simplex Random Features [53.97976744884616]
ソフトマックスおよびガウスカーネルの非バイアス近似のための新しいランダム特徴(RF)機構であるSimplex Random Features (SimRFs)を提案する。
我々は,これらのカーネルの非バイアス推定値に対して,SimRFが最小平均二乗誤差(MSE)を提供することを示す。
ポイントワイドカーネル推定,非パラメトリック分類,スケーラブルトランスフォーマーなどの設定において,SimRFによる一貫したゲインを示す。
論文 参考訳(メタデータ) (2023-01-31T18:53:39Z) - Overparameterized random feature regression with nearly orthogonal data [21.97381518762387]
本研究では,2層ニューラルネットワークによるランダム特徴リッジ回帰(RFRR)の非漸近挙動について検討した。
我々の結果は、ほぼ決定論的性質を示す様々なアクティベーション関数と入力データセットに対して成り立っている。
論文 参考訳(メタデータ) (2022-11-11T09:16:25Z) - Hybrid Random Features [60.116392415715275]
ハイブリッドランダム特徴(HRF)と呼ばれるソフトマックスとガウス核の線形化のための新しいランダム特徴法を提案する。
HRFは、カーネル推定の品質を自動的に適応し、定義された関心領域の最も正確な近似を提供する。
論文 参考訳(メタデータ) (2021-10-08T20:22:59Z) - Capturing Multi-Resolution Context by Dilated Self-Attention [58.69803243323346]
限定的自己意識と拡張メカニズムの組み合わせを提案し,これを拡張的自己意識と呼ぶ。
制限された自己注意は、高分解能でクエリの隣接するフレームに注意を払い、拡張メカニズムは、より低い解像度でそれに出席できるように遠方の情報を要約します。
ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。
論文 参考訳(メタデータ) (2021-04-07T02:04:18Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z) - Multivariate Functional Regression via Nested Reduced-Rank
Regularization [2.730097437607271]
多変量関数応答と予測器を備えた回帰モデルに適用するネスト型低ランク回帰(NRRR)手法を提案する。
非漸近解析により、NRRRは少なくとも低ランク回帰と同等の誤差率を達成できることを示す。
NRRRを電力需要問題に適用し、日中電力消費の軌跡と日中電力消費の軌跡を関連づける。
論文 参考訳(メタデータ) (2020-03-10T14:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。