論文の概要: On the Regularity of Attention
- arxiv url: http://arxiv.org/abs/2102.05628v1
- Date: Wed, 10 Feb 2021 18:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-02-11 14:43:35.550658
- Title: On the Regularity of Attention
- Title(参考訳): 注意の規則性について
- Authors: James Vuckovic, Aristide Baratin, Remi Tachet des Combes
- Abstract要約: 本稿では,測度理論と積分演算子を用いて注意をモデル化する新しい数学的枠組みを提案する。
このフレームワークは通常の定義と一致しており、注意の本質的な特性を捉えていることを示す。
また、NLPモデルに対する正則性の影響や、可逆・無限深度ネットワークへの応用についても論じる。
- 参考スコア(独自算出の注目度): 11.703070372807293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention is a powerful component of modern neural networks across a wide
variety of domains. In this paper, we seek to quantify the regularity (i.e. the
amount of smoothness) of the attention operation. To accomplish this goal, we
propose a new mathematical framework that uses measure theory and integral
operators to model attention. We show that this framework is consistent with
the usual definition, and that it captures the essential properties of
attention. Then we use this framework to prove that, on compact domains, the
attention operation is Lipschitz continuous and provide an estimate of its
Lipschitz constant. Additionally, by focusing on a specific type of attention,
we extend these Lipschitz continuity results to non-compact domains. We also
discuss the effects regularity can have on NLP models, and applications to
invertible and infinitely-deep networks.
- Abstract(参考訳): 注意は、様々な領域にわたる現代のニューラルネットワークの強力なコンポーネントである。
本稿では,正則性(すなわち正則性)を定量化する。
注意操作の滑らかさの量)。
この目的を達成するために,測度理論と積分演算子を用いて注意をモデル化する新しい数学的枠組みを提案する。
このフレームワークは通常の定義と一致しており、注意の本質的な特性を捉えていることを示す。
次に、この枠組みを用いて、コンパクトな領域において注意操作がリプシッツ連続であることを証明し、そのリプシッツ定数を推定する。
さらに、特定の種類の注意に焦点を当てることで、これらのリプシッツ連続性結果を非コンパクト領域に拡張する。
また、NLPモデルに対する正則性の影響や、可逆・無限深度ネットワークへの応用についても論じる。
関連論文リスト
- Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Lipschitz Continuity Retained Binary Neural Network [52.17734681659175]
我々は,BNNのモデルロバスト性を定義するための厳密な基準として,リプシッツ連続性を導入する。
次に、モデルロバスト性を改善するための正規化項としてリプシッツ連続性を維持することを提案する。
実験により,我々のBNN固有の正規化手法は,BNNの堅牢性を効果的に強化できることが証明された。
論文 参考訳(メタデータ) (2022-07-13T22:55:04Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Coarse-Grained Smoothness for RL in Metric Spaces [13.837098609529257]
一般的なアプローチは、Q-函数のリプシッツ連続性を仮定することである。
残念なことに、この性質は多くの典型的な領域で保持できない。
リプシッツ連続性の概念を一般化する新しい粗粒度滑らか性定義を提案する。
論文 参考訳(メタデータ) (2021-10-23T18:53:56Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z) - A Mathematical Theory of Attention [11.766912556907158]
我々は,測度理論を用いた数学的に等価な注意モデルを構築した。
私たちは最大エントロピーの観点から自己注意に光を当てた。
次に、これらの知見を誤特定入力データの問題に適用する。
論文 参考訳(メタデータ) (2020-07-06T16:42:24Z) - On Connections between Regularizations for Improving DNN Robustness [67.28077776415724]
本稿では,ディープニューラルネットワーク(DNN)の対角的ロバスト性を改善するために最近提案された正規化条件を解析する。
入力勾配正則化,ジャコビアン正則化,曲率正則化,クロスリプシッツ関数など,いくつかの有効な方法間の接続性について検討する。
論文 参考訳(メタデータ) (2020-07-04T23:43:32Z) - The Lipschitz Constant of Self-Attention [27.61634862685452]
ニューラルネットワークのリプシッツ定数は、ディープラーニングにおいて様々な文脈で研究されている。
配列モデリングに広く用いられている非線形ニューラルネットワークモジュールである自己アテンションのリプシッツ定数について検討する。
論文 参考訳(メタデータ) (2020-06-08T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。