論文の概要: SimpleTron: Eliminating Softmax from Attention Computation
- arxiv url: http://arxiv.org/abs/2111.15588v3
- Date: Thu, 2 Dec 2021 08:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 02:02:07.457188
- Title: SimpleTron: Eliminating Softmax from Attention Computation
- Title(参考訳): SimpleTron: 注意計算からSoftmaxを取り除く
- Authors: Uladzislau Yorsh, Pavel Kord\'ik, Alexander Kovalenko
- Abstract要約: そこで本研究では,ドット積のペアワイズアテンション層がモデル性能に冗長であることを示す。
我々の知る限りでは、Long-Range Arenaベンチマークのいくつかのタスクにおける既存の注意評価よりも優れる、シンプルで高速な代替案を提案する。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose that the dot product pairwise matching attention
layer, which is widely used in transformer-based models, is redundant for the
model performance. Attention in its original formulation has to be rather seen
as a human-level tool to explore and/or visualize relevancy scores in the
sequences. Instead, we present a simple and fast alternative without any
approximation that, to the best of our knowledge, outperforms existing
attention approximations on several tasks from the Long-Range Arena benchmark.
- Abstract(参考訳): 本稿では,変圧器モデルに広く用いられているドット積対対応注意層がモデル性能に冗長であることを示す。
オリジナルの定式化における注意は、シーケンスにおける関連性スコアを探索および/または視覚化するための人間レベルのツールと見なされる必要がある。
代わりに、我々の知る限りでは、Long-Range Arenaベンチマークのいくつかのタスクにおける既存の注意度を上回る、シンプルで高速な代替案を提案する。
関連論文リスト
- Sequential Recommendation via Adaptive Robust Attention with Multi-dimensional Embeddings [7.207685588038045]
逐次レコメンデーションモデルは自己認識機構を用いて最先端のパフォーマンスを達成した。
アイテムIDと位置埋め込みのみの使用を超えて移動すると、次の項目を予測するときにかなりの精度が向上する。
モデルの頑健さと一般化を改善するため,レイヤワイドノイズインジェクション(LNI)正則化を用いたミックスアテンション機構を導入する。
論文 参考訳(メタデータ) (2024-09-08T08:27:22Z) - Rethinking Iterative Stereo Matching from Diffusion Bridge Model Perspective [0.0]
本稿では,拡散モデルを反復最適化プロセスに組み込む新しいトレーニング手法を提案する。
我々のモデルはScene Flowデータセットで第1位であり、競合する手法と比較して7%以上の改善が達成されている。
論文 参考訳(メタデータ) (2024-04-13T17:31:11Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。
我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文 参考訳(メタデータ) (2021-09-24T20:51:21Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。