論文の概要: Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference
- arxiv url: http://arxiv.org/abs/2009.09364v2
- Date: Mon, 2 Nov 2020 02:22:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:33:16.814722
- Title: Repulsive Attention: Rethinking Multi-head Attention as Bayesian
Inference
- Title(参考訳): 反発的注意:マルチヘッド注意をベイズ推論として再考
- Authors: Bang An, Jie Lyu, Zhenyi Wang, Chunyuan Li, Changwei Hu, Fei Tan,
Ruiyi Zhang, Yifan Hu, Changyou Chen
- Abstract要約: ベイズの視点からの多面的注目の新たな理解を提供する。
マルチヘッドアテンションにおける反発性を明示的に改善する非パラメトリックアプローチを提案する。
様々な注意モデルや応用実験により、提案された反発的注意が学習された特徴の多様性を向上させることが示されている。
- 参考スコア(独自算出の注目度): 68.12511526813991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The neural attention mechanism plays an important role in many natural
language processing applications. In particular, the use of multi-head
attention extends single-head attention by allowing a model to jointly attend
information from different perspectives. Without explicit constraining,
however, multi-head attention may suffer from attention collapse, an issue that
makes different heads extract similar attentive features, thus limiting the
model's representation power. In this paper, for the first time, we provide a
novel understanding of multi-head attention from a Bayesian perspective. Based
on the recently developed particle-optimization sampling techniques, we propose
a non-parametric approach that explicitly improves the repulsiveness in
multi-head attention and consequently strengthens model's expressiveness.
Remarkably, our Bayesian interpretation provides theoretical inspirations on
the not-well-understood questions: why and how one uses multi-head attention.
Extensive experiments on various attention models and applications demonstrate
that the proposed repulsive attention can improve the learned feature
diversity, leading to more informative representations with consistent
performance improvement on various tasks.
- Abstract(参考訳): ニューラルアテンション機構は多くの自然言語処理アプリケーションにおいて重要な役割を果たす。
特に、マルチヘッドアテンションの使用は、モデルが異なる視点から情報に共同で出席できるようにすることにより、シングルヘッドアテンションを拡張する。
しかし、明示的な制約がなければ、マルチヘッドの注意は注意の崩壊に悩まされる可能性がある。
本稿では,ベイジアンの視点からのマルチヘッドアテンションの新たな理解を初めて提供する。
最近開発された粒子最適化サンプリング技術に基づいて,マルチヘッドにおける反発性を明示的に改善し,モデル表現性を向上する非パラメトリック手法を提案する。
私たちのベイズ解釈は、よく理解されていない疑問に理論的インスピレーションを与えています。
様々な注意モデルおよび応用に関する広範囲な実験により、提案する反発的注意は、学習された特徴の多様性を改善し、様々なタスクにおいて一貫したパフォーマンス改善を伴うより有益な表現をもたらすことが示されている。
関連論文リスト
- Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Improving Speech Emotion Recognition Through Focus and Calibration
Attention Mechanisms [0.5994412766684842]
既存のマルチヘッド自己注意における注意と信号振幅の相違を同定する。
そこで本研究では,マルチヘッド・セルフアテンションと組み合わせて,フォーカス・アテンション(FA)機構とノベル・アテンション(CA)機構を提案する。
CA機構を利用することで、異なる重みをそれぞれのアテンションヘッドに割り当てることで、情報フローを変調し、周囲のコンテキストの利用を改善することができる。
論文 参考訳(メタデータ) (2022-08-21T08:04:22Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Improve the Interpretability of Attention: A Fast, Accurate, and
Interpretable High-Resolution Attention Model [6.906621279967867]
そこで本稿では,タスク関連情報を取り込むための,非線形代表非パラメトリックアテンション(BR-NPA)戦略を提案する。
提案したモデルは、分類が関与する様々な近代的な深層モデルに容易に適応できる。
また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。
論文 参考訳(メタデータ) (2021-06-04T15:57:37Z) - How Far Does BERT Look At:Distance-based Clustering and Analysis of
BERT$'$s Attention [20.191319097826266]
注意マップを教師なしクラスタリングによって、大きく異なるパターンにクラスタリングします。
提案する特徴は,Transformer モデルにおける異なる注意ヘッドのキャリブレーションに利用できる。
論文 参考訳(メタデータ) (2020-11-02T12:52:31Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。