論文の概要: Element-wise Attention Is All You Need
- arxiv url: http://arxiv.org/abs/2501.05730v1
- Date: Fri, 10 Jan 2025 05:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:13.927882
- Title: Element-wise Attention Is All You Need
- Title(参考訳): 要素の注意は必要なだけ
- Authors: Guoxin Feng,
- Abstract要約: 自己注意機構は、様々な領域で優れたパフォーマンスを持つが、トレーニングと推論の両方で複雑さに悩まされる。
ドット積演算の代わりにユークリッド距離を用いて類似性を計算する新しい要素ワイドアテンション機構を提案する。
推論中はリカレントニューラルネットワークとして再計算でき、$mathcalO(tD)$を推論することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The self-attention (SA) mechanism has demonstrated superior performance across various domains, yet it suffers from substantial complexity during both training and inference. The next-generation architecture, aiming at retaining the competitive performance of SA while achieving low-cost inference and efficient long-sequence training, primarily focuses on three approaches: linear attention, linear RNNs, and state space models. Although these approaches achieve reduced complexity than SA, they all have built-in performance degradation factors, such as diminished “spikiness” and compression of historical information. In contrast to these approaches, we propose a novel element-wise attention mechanism, which uses the element-wise squared Euclidean distance, instead of the dot product operation, to compute similarity and approximates the quadratic complexity term $\exp(q_{ic}k_{jc})$ with a Taylor polynomial. This design achieves remarkable efficiency: during training, the element-wise attention has a complexity of $\mathcal{O}(tLD)$, making long-sequence training both computationally and memory efficient, where $L$ is the sequence length, $D$ is the feature dimension, and $t$ is the highest order of the polynomial; during inference, it can be reformulated as recurrent neural networks, achieving a inference complexity of $\mathcal{O}(tD)$. Furthermore, the element-wise attention circumvents the performance degradation factors present in these approaches and achieves performance comparable to SA in both causal and non-causal forms.
- Abstract(参考訳): 自己注意(SA)メカニズムは、様々な領域で優れたパフォーマンスを示してきたが、トレーニングと推論の両方でかなりの複雑さに悩まされている。
次世代アーキテクチャは、低コストな推論と効率的な時系列トレーニングを実現しつつ、SAの競争性能を維持することを目的としており、主に線形注意、線形RNN、状態空間モデルという3つのアプローチに焦点を当てている。
これらのアプローチは、SAよりも複雑さを減らしますが、それらはすべて、”スパイキネス”の低下や、過去の情報の圧縮といったパフォーマンス劣化要因を組み込んでいます。
これらのアプローチとは対照的に、ドット積演算の代わりにユークリッド距離を使って類似性を計算し、テイラー多項式で2次複雑性項 $\exp(q_{ic}k_{jc})$ を近似する新しい要素ワイドアテンション機構を提案する。
この設計は顕著な効率性を実現している: トレーニング中は、要素単位の注意は$\mathcal{O}(tLD)$の複雑さを持ち、計算とメモリ効率の両方に長いシーケンストレーニングを施し、$L$はシーケンス長、$D$はフィーチャーディメンジョン、$t$は多項式の最高順序である。
さらに、要素的注意は、これらのアプローチに存在する性能劣化要因を回避し、因果形と非因果形の両方でSAに匹敵する性能を達成する。
関連論文リスト
- A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Fast Multipole Attention: A Divide-and-Conquer Attention Mechanism for Long Sequences [1.5484595752241124]
我々は、長さ$n$のシーケンスに対する注意の時間とメモリの複雑さを低減するために、分割・参照戦略を利用する新しい注意機構であるFast Multipole Attentionを提案する。
階層的なアプローチは、クエリ、キー、値を$mathcalO(log n)$の解像度レベルにグループ化する。
我々は,高速多極変換器がメモリサイズや精度の点で,他の効率的な変換器よりもはるかに優れていることを実証的に見出した。
論文 参考訳(メタデータ) (2023-10-18T13:40:41Z) - Scaling ResNets in the Large-depth Regime [11.374578778690623]
Deep ResNetは、機械学習タスクで最先端の結果を達成するために認識されている。
Deep ResNetsは、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存している。
この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は、各レイヤの出力を$alpha_L$でスケーリングすることである。
論文 参考訳(メタデータ) (2022-06-14T15:49:10Z) - Poly-NL: Linear Complexity Non-local Layers with Polynomials [76.21832434001759]
性能を損なわずに2次から線形に複雑性を低減できる新しい高速非局所ブロックを定式化する。
The proposed method, we dub that "Poly-NL" is competitive to state-of-the-art performance across image recognition, instance segmentation, and face detection task。
論文 参考訳(メタデータ) (2021-07-06T19:51:37Z) - The Computational Complexity of ReLU Network Training Parameterized by
Data Dimensionality [8.940054309023525]
トレーニングデータの寸法$d$が計算の複雑さに与える影響を分析します。
既知のブルートフォース戦略が本質的に最適であることを示す。
特に、一定の$d$ と凸損失関数に対する既知の時間アルゴリズムを、より一般的な損失関数のクラスに拡張する。
論文 参考訳(メタデータ) (2021-05-18T17:05:26Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - The Complexity of Adversarially Robust Proper Learning of Halfspaces
with Agnostic Noise [67.27523616312428]
分布非依存型PACモデルにおけるハーフスペースの逆強正則学習の計算複雑性について検討する。
この問題に対して,計算効率のよい学習アルゴリズムとほぼ一致する計算硬度結果を与える。
論文 参考訳(メタデータ) (2020-07-30T04:18:51Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z) - Convergence of Meta-Learning with Task-Specific Adaptation over Partial
Parameters [152.03852111442114]
モデルに依存しないメタラーニング(MAML)は非常に成功したアルゴリズムメタラーニングの実践であるが、高い計算複雑性を持つ。
本稿では,その複雑さがANILの全体的な収束性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2020-06-16T19:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。