論文の概要: Linear Log-Normal Attention with Unbiased Concentration
- arxiv url: http://arxiv.org/abs/2311.13541v2
- Date: Wed, 24 Jan 2024 15:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:08:14.455069
- Title: Linear Log-Normal Attention with Unbiased Concentration
- Title(参考訳): 無バイアス濃度の線形対数正規注意
- Authors: Yury Nahshan, Joseph Kampeas and Emir Haleva
- Abstract要約: 本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。
本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。
ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
- 参考スコア(独自算出の注目度): 3.034257650900382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have achieved remarkable results in a wide range of
applications. However, their scalability is hampered by the quadratic time and
memory complexity of the self-attention mechanism concerning the sequence
length. This limitation poses a substantial obstacle when dealing with long
documents or high-resolution images. In this work, we study the self-attention
mechanism by analyzing the distribution of the attention matrix and its
concentration ability. Furthermore, we propose instruments to measure these
quantities and introduce a novel self-attention mechanism, Linear Log-Normal
Attention, designed to emulate the distribution and concentration behavior of
the original self-attention. Our experimental results on popular natural
language benchmarks reveal that our proposed Linear Log-Normal Attention
outperforms other linearized attention alternatives, offering a promising
avenue for enhancing the scalability of transformer models. Our code is
available in supplementary materials.
- Abstract(参考訳): トランスフォーマーモデルは広範囲のアプリケーションで顕著な成果を上げている。
しかし、そのスケーラビリティは、シーケンス長に関する自己注意機構の二次時間とメモリの複雑さによって妨げられる。
この制限は、長い文書や高解像度画像を扱う際にかなりの障害となる。
本研究では,注意行列の分布と集中能力を分析し,自己注意機構について検討する。
さらに,これらの量を計測する手段を提案し,その分布・集中挙動をエミュレートする新しい自己付着機構である線形対数正規注意機構を提案する。
ポピュラーな自然言語ベンチマークによる実験結果から,提案する線形ログNormal Attentionは,他の線形化アテンションよりも優れており,トランスフォーマーモデルのスケーラビリティ向上に期待できる方法であることがわかった。
私たちのコードは補足資料で入手できる。
関連論文リスト
- Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Latte: Latent Attention for Linear Time Transformers [11.524573224123905]
注意を喚起するための確率的枠組みを提案する。
本手法は,標準アテンション機構のドロップイン置換としてシームレスに統合できる。
結果として生じるLatte Transformer'は、標準的な注目やその他の最先端モデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-27T13:54:48Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Easy attention: A simple attention mechanism for temporal predictions with transformers [2.172584429650463]
キー,クエリ,ソフトマックスは,時間的シーケンスにおける長期依存を捉えるのに必要な注意点を得るのに必要ではないことを示す。
提案手法は,注意点を直接学習可能なパラメータとして扱う。
この手法はカオスシステムの時間的ダイナミクスの再構築と予測において優れた結果をもたらす。
論文 参考訳(メタデータ) (2023-08-24T15:54:32Z) - Flowformer: Linearizing Transformers with Conservation Flows [77.25101425464773]
本研究では,フローネットワーク理論に基づくインダクティブバイアスのないトランスフォーマーを線形化する。
ソースコンペティション用シンクの流入流と、シンクアロケーション用ソースの流出流をそれぞれ保存することにより、フローアテンションは本質的に情報的注意を発生させる。
論文 参考訳(メタデータ) (2022-02-13T08:44:10Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。