論文の概要: Generalized Probabilistic Attention Mechanism in Transformers
- arxiv url: http://arxiv.org/abs/2410.15578v1
- Date: Mon, 21 Oct 2024 01:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:44.898892
- Title: Generalized Probabilistic Attention Mechanism in Transformers
- Title(参考訳): 変圧器の一般化確率的注意機構
- Authors: DongNyeong Heo, Heeyoul Choi,
- Abstract要約: GPAM(Generalized Probabilistic attention mechanism)と呼ばれる新しい注意機構を導入する。
従来のアテンション機構とは異なり、GPAMは固定総和を保持しながら負のアテンションスコアを許容する。
提案した二重注意GPAMは,ランク崩壊問題と勾配消滅問題の両方を効果的に緩和する理論的証拠を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Transformer architecture has become widely adopted due to its demonstrated success, attributed to the attention mechanism at its core. Despite these successes, the attention mechanism of Transformers is associated with two well-known issues: rank-collapse and gradient vanishing. In this paper, we present a theoretical analysis that it is inherently difficult to address both issues simultaneously in the conventional attention mechanism. To handle these issues, we introduce a novel class of attention mechanism, referred to as generalized probabilistic attention mechanism (GPAM), and its dual-attention implementation within the Transformer architecture. Unlike conventional attention mechanisms, GPAM allows for negative attention scores while preserving a fixed total sum. We provide theoretical evidence that the proposed dual-attention GPAM (daGPAM) effectively mitigates both the rank-collapse and gradient vanishing issues which are difficult to resolve simultaneously with the conventional attention mechanisms. Furthermore, we empirically validate this theoretical evidence, demonstrating the superiority of daGPAM compared to other alternative attention mechanisms that were proposed to address the same issues. Additionally, we demonstrate the practical benefits of GPAM in natural language processing tasks, such as language modeling and neural machine translation.
- Abstract(参考訳): Transformerアーキテクチャは、その成功が証明されたため、その中核にある注意機構によって広く採用されている。
これらの成功にもかかわらず、トランスフォーマーの注意機構は、ランク崩壊と勾配消滅という2つのよく知られた問題と関連付けられている。
本稿では,従来の注意機構において,両問題を同時に扱うことが本質的に困難であるという理論的分析を行う。
これらの問題に対処するため,GPAM(Generalized Probabilistic attention mechanism)と呼ばれる新しいアテンション機構を導入し,トランスフォーマーアーキテクチャにおける2つのアテンション実装を提案する。
従来のアテンション機構とは異なり、GPAMは固定総和を保持しながら負のアテンションスコアを許容する。
提案手法は,従来の注意機構と同時解決が困難であるランク崩壊と勾配消滅の両問題を効果的に緩和するものである。
さらに、この理論的証拠を実証的に検証し、同じ問題に対処するために提案された他の他の注意機構と比較して、daGPAMの優位性を実証した。
さらに,言語モデリングやニューラルマシン翻訳など,自然言語処理タスクにおけるGPAMの実用的メリットを示す。
関連論文リスト
- Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals [82.68757839524677]
解釈可能性研究は、経験的成功と大規模言語モデル(LLM)の科学的理解のギャップを埋めることを目的としている。
本稿では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目した,メカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T17:26:51Z) - Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - EEG motor imagery decoding: A framework for comparative analysis with
channel attention mechanisms [3.1265626879839923]
チャネルアテンション機構は、伝統的にモータ画像復号に用いられてきた空間フィルタの強力な進化と見なすことができる。
本研究は、これらのメカニズムを軽量アーキテクチャフレームワークに統合し、その影響を評価することによって体系的に比較する。
われわれのアーキテクチャは単純さを重視し、チャネルアテンション機構の容易な統合を提供しながら、データセット間の高度な一般化性を維持している。
論文 参考訳(メタデータ) (2023-10-17T12:25:31Z) - Attention mechanisms for physiological signal deep learning: which
attention should we take? [0.0]
我々は,4つのアテンション機構(例えば,圧縮励起,非局所的,畳み込みブロックアテンションモジュール,マルチヘッド自己アテンション)と3つの畳み込みニューラルネットワーク(CNN)アーキテクチャを実験的に解析した。
生理信号深層学習モデルの性能と収束性に関する複数の組み合わせを評価した。
論文 参考訳(メタデータ) (2022-07-04T07:24:08Z) - M2A: Motion Aware Attention for Accurate Video Action Recognition [86.67413715815744]
我々は,動作特性を明示的に組み込んだM2A(Motion Aware Attention)と呼ばれる新しい注意機構を開発した。
M2Aは連続するフレーム間の動き情報を抽出し、フレーム全体で見られる動きパターンに注目して、ビデオ中の動作を正確に認識する。
提案したM2A機構を用いて,動作機構をアテンション機構に組み込むことで,異なるバックボーンアーキテクチャにおいて,トップ1の精度が15%から26%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2021-11-18T23:38:09Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Is Attention All What You Need? -- An Empirical Investigation on
Convolution-Based Active Memory and Self-Attention [7.967230034960396]
各種能動記憶機構がトランスフォーマーの自己注意に取って代わるかどうかを評価する。
実験の結果、アクティブメモリだけで言語モデリングの自己認識機構に匹敵する結果が得られることが示唆された。
特定のアルゴリズムタスクでは、アクティブメモリメカニズムだけで、自己注意とこれら2つの組み合わせよりも優れています。
論文 参考訳(メタデータ) (2019-12-27T02:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。