論文の概要: A Mathematical Theory of Attention
- arxiv url: http://arxiv.org/abs/2007.02876v2
- Date: Mon, 20 Jul 2020 13:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 01:43:24.174611
- Title: A Mathematical Theory of Attention
- Title(参考訳): 注意の数学的理論
- Authors: James Vuckovic, Aristide Baratin, Remi Tachet des Combes
- Abstract要約: 我々は,測度理論を用いた数学的に等価な注意モデルを構築した。
私たちは最大エントロピーの観点から自己注意に光を当てた。
次に、これらの知見を誤特定入力データの問題に適用する。
- 参考スコア(独自算出の注目度): 11.766912556907158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention is a powerful component of modern neural networks across a wide
variety of domains. However, despite its ubiquity in machine learning, there is
a gap in our understanding of attention from a theoretical point of view. We
propose a framework to fill this gap by building a mathematically equivalent
model of attention using measure theory. With this model, we are able to
interpret self-attention as a system of self-interacting particles, we shed
light on self-attention from a maximum entropy perspective, and we show that
attention is actually Lipschitz-continuous (with an appropriate metric) under
suitable assumptions. We then apply these insights to the problem of
mis-specified input data; infinitely-deep, weight-sharing self-attention
networks; and more general Lipschitz estimates for a specific type of attention
studied in concurrent work.
- Abstract(参考訳): 注意は、様々な領域にわたる現代のニューラルネットワークの強力なコンポーネントである。
しかし、機械学習におけるユビキタスさにもかかわらず、理論的観点からの注意の理解にはギャップがある。
本稿では,測度理論を用いた数学的に等価な注意モデルを構築し,このギャップを埋める枠組みを提案する。
このモデルにより、自己相互作用粒子の系として自己アテンションを解釈することができ、最大エントロピーの観点から自己アテンションに光を当て、適切な仮定の下で、注意が実際にリプシッツ連続性(適切な計量を持つ)であることを示す。
そして、これらの洞察を、不特定な入力データの問題、無限に深く、重みを共有できる自己アテンションネットワーク、そしてより一般的なリプシッツ推定に適用する。
関連論文リスト
- Dissecting the Interplay of Attention Paths in a Statistical Mechanics Theory of Transformers [14.59741397670484]
本稿では,トランスフォーマーと密接な関係を持つ深層多頭部自己注意ネットワークについて考察する。
このモデルでベイズ学習の統計力学理論を開発する。
合成および実世界のシーケンス分類タスクについて,本研究の成果を確認した。
論文 参考訳(メタデータ) (2024-05-24T20:34:18Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Is Sparse Attention more Interpretable? [52.85910570651047]
我々は,空間が注意力を説明可能性ツールとして活用する能力にどのように影響するかを検討する。
入力とインデックス付き中間表現の間には弱い関係しか存在しません。
この設定では、疎度を誘導することで、モデルの振る舞いを理解するためのツールとして注意が使用できることが、より確実になる可能性があることを観察する。
論文 参考訳(メタデータ) (2021-06-02T11:42:56Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - On the Regularity of Attention [11.703070372807293]
本稿では,測度理論と積分演算子を用いて注意をモデル化する新しい数学的枠組みを提案する。
このフレームワークは通常の定義と一致しており、注意の本質的な特性を捉えていることを示す。
また、NLPモデルに対する正則性の影響や、可逆・無限深度ネットワークへの応用についても論じる。
論文 参考訳(メタデータ) (2021-02-10T18:40:11Z) - Focus of Attention Improves Information Transfer in Visual Features [80.22965663534556]
本稿では,真のオンライン環境下での視覚情報伝達のための教師なし学習に焦点を当てた。
エントロピー項の計算は、エントロピー項のオンライン推定を行う時間的プロセスによって行われる。
入力確率分布をよりよく構成するために,人間のような注目モデルを用いる。
論文 参考訳(メタデータ) (2020-06-16T15:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。