論文の概要: Elliptical Attention
- arxiv url: http://arxiv.org/abs/2406.13770v2
- Date: Thu, 31 Oct 2024 21:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:33:56.066134
- Title: Elliptical Attention
- Title(参考訳): 楕円アテンション
- Authors: Stefan K. Nielsen, Laziz U. Abdullaev, Rachel S. Y. Teo, Tan M. Nguyen,
- Abstract要約: Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。
本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
- 参考スコア(独自算出の注目度): 1.7597562616011944
- License:
- Abstract: Pairwise dot-product self-attention is key to the success of transformers that achieve state-of-the-art performance across a variety of applications in language and vision. This dot-product self-attention computes attention weights among the input tokens using Euclidean distance, which makes the model prone to representation collapse and vulnerable to contaminated samples. In this paper, we propose using a Mahalanobis distance metric for computing the attention weights to stretch the underlying feature space in directions of high contextual relevance. In particular, we define a hyper-ellipsoidal neighborhood around each query to increase the attention weights of the tokens lying in the contextually important directions. We term this novel class of attention Elliptical Attention. Our Elliptical Attention provides two benefits: 1) reducing representation collapse and 2) enhancing the model's robustness as Elliptical Attention pays more attention to contextually relevant information rather than focusing on some small subset of informative features. We empirically demonstrate the advantages of Elliptical Attention over the baseline dot-product attention and state-of-the-art attention methods on various practical tasks, including object classification, image segmentation, and language modeling across different data modalities.
- Abstract(参考訳): Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。
このドット積自己アテンションはユークリッド距離を用いて入力トークン間の注意重みを計算し、モデルが崩壊し、汚染されたサンプルに対して脆弱になる。
本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張する手法を提案する。
特に,各問合せ周辺の超楕円近傍を定義し,文脈的に重要な方向にあるトークンの注意重みを増大させる。
我々はこの新しい注目のクラスを楕円的注意(Elliptical Attention)と呼ぶ。
楕円的注意(Elliptical Attention)は2つの利点を提供する。
1)表現の崩壊と縮小
2)Elliptical Attentionは情報的特徴の小さなサブセットに注目するのではなく,文脈的に関連した情報に注意を払う。
対象分類,画像分割,言語モデリングなど,さまざまな作業における基本点積の注意に対する楕円的注意の利点と最先端の注意法を実証的に示す。
関連論文リスト
- Attention Guidance Mechanism for Handwritten Mathematical Expression
Recognition [20.67011291281534]
手書きの数学的表現認識(HMER)は、複雑な数学的表現のレイアウトのため、画像からテキストへのタスクにおいて困難である。
本研究では,無関係領域における注意重みを明示的に抑制し,適切な部分を強化するための注意誘導機構を提案する。
本手法は, CROHME 2014/2016/2019データセットにおいて, 60.75% / 61.81% / 63.30%の表現認識率を達成し, 既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-04T06:22:17Z) - Fortify the Shortest Stave in Attention: Enhancing Context Awareness of Large Language Models for Effective Tool Use [74.72150542395487]
大規模言語モデル(LLM)の注意配分における固有波形パターンは、高い文脈認識を必要とするタスクにおいて、その性能に大きな影響を及ぼす。
この問題に対処するため,Attention Buckets という新しい推論手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T17:24:51Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - Effective Attention Sheds Light On Interpretability [3.317258557707008]
有効な注意を可視化することは、標準的な注意の解釈とは異なる結論を与えるかどうかを問う。
実効的な注意力は、言語モデリング事前学習に関連する特徴とあまり関連がないことを示す。
設計によって出力されるモデルに関係が深いため, 変圧器の挙動を研究する上で, 効果的な注意を払うことを推奨する。
論文 参考訳(メタデータ) (2021-05-18T23:41:26Z) - Beyond Self-attention: External Attention using Two Linear Layers for
Visual Tasks [34.32609892928909]
外部注意と呼ばれる新しい注意機構を,外部的,小さく,学習可能,共有的記憶の2つに基づいて提案する。
提案手法は,自己保持機構とその変種に匹敵する性能を有し,計算コストとメモリコストを大幅に低減する。
論文 参考訳(メタデータ) (2021-05-05T22:29:52Z) - Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference [68.12511526813991]
ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
論文 参考訳(メタデータ) (2020-09-20T06:32:23Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。