論文の概要: Is Attention All What You Need? -- An Empirical Investigation on
Convolution-Based Active Memory and Self-Attention
- arxiv url: http://arxiv.org/abs/1912.11959v2
- Date: Mon, 30 Dec 2019 09:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 00:14:31.863195
- Title: Is Attention All What You Need? -- An Empirical Investigation on
Convolution-Based Active Memory and Self-Attention
- Title(参考訳): 注意は必要なものすべてか?
--畳み込みに基づくアクティブメモリと自己注意に関する実証的研究
- Authors: Thomas Dowdell and Hongyu Zhang
- Abstract要約: 各種能動記憶機構がトランスフォーマーの自己注意に取って代わるかどうかを評価する。
実験の結果、アクティブメモリだけで言語モデリングの自己認識機構に匹敵する結果が得られることが示唆された。
特定のアルゴリズムタスクでは、アクティブメモリメカニズムだけで、自己注意とこれら2つの組み合わせよりも優れています。
- 参考スコア(独自算出の注目度): 7.967230034960396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The key to a Transformer model is the self-attention mechanism, which allows
the model to analyze an entire sequence in a computationally efficient manner.
Recent work has suggested the possibility that general attention mechanisms
used by RNNs could be replaced by active-memory mechanisms. In this work, we
evaluate whether various active-memory mechanisms could replace self-attention
in a Transformer. Our experiments suggest that active-memory alone achieves
comparable results to the self-attention mechanism for language modelling, but
optimal results are mostly achieved by using both active-memory and
self-attention mechanisms together. We also note that, for some specific
algorithmic tasks, active-memory mechanisms alone outperform both
self-attention and a combination of the two.
- Abstract(参考訳): トランスフォーマーモデルの鍵となるのはセルフアテンション機構であり、モデルが計算効率の良い方法でシーケンス全体を解析できる。
近年の研究では、RNNが使用する一般的な注意機構がアクティブメモリ機構に置き換えられる可能性が示唆されている。
本研究では,様々なアクティブメモリ機構がトランスフォーマの自己着脱を代替できるかどうかを評価する。
実験では,アクティブメモリだけで言語モデリングにおける自己着信機構と同等の結果が得られることを示唆するが,最善の結果はアクティブメモリと自己着信機構の両方を併用することで達成される。
また、特定のアルゴリズムタスクでは、アクティブメモリメカニズムだけで2つの組み合わせの自己アテンションを上回っていることも指摘します。
関連論文リスト
- Transformer Mechanisms Mimic Frontostriatal Gating Operations When
Trained on Human Working Memory Tasks [19.574270595733502]
簡単なシーケンスモデリングタスクで訓練されたバニラアテンションのみのトランスフォーマー内で発生するメカニズムを解析する。
トレーニングの結果,Transformer内の自己認識機構が,入力と出力のゲーティング機構を反映する方法で特化していることが判明した。
論文 参考訳(メタデータ) (2024-02-13T04:28:43Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Assessing the Impact of Attention and Self-Attention Mechanisms on the
Classification of Skin Lesions [0.0]
注意モジュールと自己注意という,2種類の注意機構に注目した。
注意モジュールは各層入力テンソルの特徴を再重み付けするために使用される。
自己認識(Self-Attention)は、元々自然言語処理の分野で提案されていたもので、入力シーケンス内のすべての項目を関連付けることができる。
論文 参考訳(メタデータ) (2021-12-23T18:02:48Z) - Couplformer:Rethinking Vision Transformer with Coupling Attention Map [7.789667260916264]
Transformerモデルはコンピュータビジョン領域において優れた性能を示した。
本稿では,2つのサブ行列にアテンションマップを分割する,Couplformerという新しいメモリエコノミーアテンション機構を提案する。
実験の結果、Couplformerは通常のTransformerに比べて28%のメモリ消費を著しく削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T10:05:35Z) - M2A: Motion Aware Attention for Accurate Video Action Recognition [86.67413715815744]
我々は,動作特性を明示的に組み込んだM2A(Motion Aware Attention)と呼ばれる新しい注意機構を開発した。
M2Aは連続するフレーム間の動き情報を抽出し、フレーム全体で見られる動きパターンに注目して、ビデオ中の動作を正確に認識する。
提案したM2A機構を用いて,動作機構をアテンション機構に組み込むことで,異なるバックボーンアーキテクチャにおいて,トップ1の精度が15%から26%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-18T23:38:09Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Attention or memory? Neurointerpretable agents in space and time [0.0]
本研究では,意味的特徴空間にタスク状態表現を実装する自己認識機構を組み込んだモデルの設計を行う。
エージェントの選択的特性を評価するために,多数のタスク非関連特徴を観察に付加する。
神経科学の予測に従って、自己注意は、ベンチマークモデルと比較してノイズに対する堅牢性を高める。
論文 参考訳(メタデータ) (2020-07-09T15:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。