Fugu-MT 論文翻訳(概要): Attention that does not Explain Away

論文の概要: Attention that does not Explain Away

arxiv url: http://arxiv.org/abs/2009.14308v1
Date: Tue, 29 Sep 2020 21:05:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 05:33:45.929060
Title: Attention that does not Explain Away
Title（参考訳）: 訳語説明しない;説明しない
Authors: Nan Ding, Xinjie Fan, Zhenzhong Lan, Dale Schuurmans, Radu Soricut
Abstract要約: Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。 Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
参考スコア（独自算出の注目度）: 54.42960937271612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Models based on the Transformer architecture have achieved better accuracy than the ones based on competing architectures for a large set of tasks. A unique feature of the Transformer is its universal application of a self-attention mechanism, which allows for free information flow at arbitrary distances. Following a probabilistic view of the attention via the Gaussian mixture model, we find empirical evidence that the Transformer attention tends to "explain away" certain input neurons. To compensate for this, we propose a doubly-normalized attention scheme that is simple to implement and provides theoretical guarantees for avoiding the "explaining away" effect without introducing significant computational or memory cost. Empirically, we show that the new attention schemes result in improved performance on several well-known benchmarks.
Abstract（参考訳）: Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。 Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。ガウス混合モデルによる注意の確率論的見解に従うと、トランスフォーマーの注意が特定の入力ニューロンを「引き離す」傾向があるという実証的な証拠が見つかる。これを補うために、我々は実装が簡単で、計算コストやメモリコストを伴わずに「説明不能」効果を避けるための理論的保証を提供する二重正規化注意方式を提案する。実験により,新しいアテンション方式により,いくつかのよく知られたベンチマークの性能が向上したことを示す。

関連論文リスト

Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文参考訳（メタデータ） (2025-06-17T01:19:28Z)
Simplifying Graph Transformers [64.50059165186701]
本稿では, アーキテクチャ上の大きな歪みを伴わずに, グラフに適用できるように, 3つの簡単な修正を提案する。具体的には,(1)簡易な$L$の注意でトークンの大きさを計測すること,(2)トークンの大きさ情報を保存するための適応的なルート平均二乗正規化,(3)共有エンコーダを用いた相対的な位置符号化バイアスを提唱する。
論文参考訳（メタデータ） (2025-04-17T02:06:50Z)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳（メタデータ） (2025-03-02T01:56:35Z)
Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文参考訳（メタデータ） (2024-09-20T07:41:47Z)
FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文参考訳（メタデータ） (2024-02-12T18:59:39Z)
Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文参考訳（メタデータ） (2023-11-20T17:35:44Z)
AttMEMO : Accelerating Transformers with Memoization on Big Memory Systems [10.585040856070941]
本稿では,意味的に類似した入力を見つけ,計算の類似性を識別する新しい埋め込み手法を提案する。推論精度の低下を無視して,平均で22%(最大68%)の推論遅延低減を可能にする。
論文参考訳（メタデータ） (2023-01-23T04:24:26Z)
Convexifying Transformers: Improving optimization and understanding of transformer networks [56.69983975369641]
本研究では,注目/変圧器ネットワークのトレーニング問題について検討し,新しい凸解析手法を提案する。まず,自己注意機構の代替として凸を導入し,変圧器ネットワークの正規化学習問題を再構成する。凸解析の副産物として,トークン間の空間性を促進する暗黙の規則化機構を明らかにする。
論文参考訳（メタデータ） (2022-11-20T18:17:47Z)
How Much Does Attention Actually Attend? Questioning the Importance of Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文参考訳（メタデータ） (2022-11-07T12:37:54Z)
XAI for Transformers: Better Explanations through Conservative Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文参考訳（メタデータ） (2022-02-15T10:47:11Z)
Couplformer:Rethinking Vision Transformer with Coupling Attention Map [7.789667260916264]
Transformerモデルはコンピュータビジョン領域において優れた性能を示した。本稿では,2つのサブ行列にアテンションマップを分割する,Couplformerという新しいメモリエコノミーアテンション機構を提案する。実験の結果、Couplformerは通常のTransformerに比べて28%のメモリ消費を著しく削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T10:05:35Z)
Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文参考訳（メタデータ） (2021-08-10T23:17:16Z)
Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-09T17:46:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。