論文の概要: How Smooth Is Attention?
- arxiv url: http://arxiv.org/abs/2312.14820v2
- Date: Tue, 4 Jun 2024 15:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 13:37:33.668542
- Title: How Smooth Is Attention?
- Title(参考訳): スムースとは何か?
- Authors: Valérie Castin, Pierre Ablin, Gabriel Peyré,
- Abstract要約: いくつかの実践シナリオにおいて、リプシッツ定数の自己注意について詳細に研究する。
任意のコンパクト集合における長さ$n$の入力に対して、自己注意のリプシッツ定数は定数係数まで$sqrtn$で有界であることを示す。
マスクされた自己注意のための平均フィールドフレームワークは、新しくて独立した関心事です。
- 参考スコア(独自算出の注目度): 26.322030088685928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention and masked self-attention are at the heart of Transformers' outstanding success. Still, our mathematical understanding of attention, in particular of its Lipschitz properties - which are key when it comes to analyzing robustness and expressive power - is incomplete. We provide a detailed study of the Lipschitz constant of self-attention in several practical scenarios, discussing the impact of the sequence length $n$ and layer normalization on the local Lipschitz constant of both unmasked and masked self-attention. In particular, we show that for inputs of length $n$ in any compact set, the Lipschitz constant of self-attention is bounded by $\sqrt{n}$ up to a constant factor and that this bound is tight for reasonable sequence lengths. When the sequence length $n$ is too large for the previous bound to be tight, which we refer to as the mean-field regime, we provide an upper bound and a matching lower bound which are independent of $n$. Our mean-field framework for masked self-attention is novel and of independent interest. Our experiments on pretrained and randomly initialized BERT and GPT-2 support our theoretical findings.
- Abstract(参考訳): 自己アテンションとマスク付き自己アテンションはトランスフォーマーの卓越した成功の核心にある。
それでも、注意の数学的理解、特にそのリプシッツの性質は、ロバスト性や表現力を分析する上で鍵となるもので、不完全である。
いくつかの実践シナリオにおいて、リプシッツ定数の詳細な研究を行い、配列長$n$と層正規化が非マスキングおよびマスク付き自己アテンションの両方の局所リプシッツ定数に与える影響を論じる。
特に、任意のコンパクト集合における長さ$n$の入力に対して、自己注意のリプシッツ定数は定数係数まで$\sqrt{n}$で有界であり、この境界は妥当な列長に対して厳密であることを示す。
列長 $n$ が、前回の境界がタイトになるには大きすぎるとき、平均場状態(英: mean-field regime)と呼び、上界と一致する下界を$n$ とは独立に提供する。
マスクされた自己注意のための平均フィールドフレームワークは、新しくて独立した関心事です。
事前学習およびランダムに初期化したBERTとGPT-2に関する実験は,理論的な知見を裏付けるものである。
関連論文リスト
- Stick-breaking Attention [38.492552119793]
自己注意機構は伝統的にソフトマックス作用素に依存している。
顔長一般化問題を用いた現状の方法
スティック破砕法に基づく別の注意機構を提案する。
論文 参考訳(メタデータ) (2024-10-23T15:51:13Z) - KPZ scaling from the Krylov space [83.88591755871734]
近年,Cardar-Parisi-Zhangスケーリングをリアルタイムの相関器や自動相関器に示す超拡散が報告されている。
これらの結果から着想を得て,Krylov演算子に基づく相関関数のKPZスケーリングについて検討する。
論文 参考訳(メタデータ) (2024-06-04T20:57:59Z) - Causal Bandits with General Causal Models and Interventions [38.112806687145344]
本稿では、因果系における介入の逐次的設計のための因果バンドイット(CB)について考察する。
報奨関数の最適化は、後ろ視における最良の介入の順序に対する累積的後悔の尺度を最小化することによるものである。
論文 参考訳(メタデータ) (2024-03-01T02:28:49Z) - Some Fundamental Aspects about Lipschitz Continuity of Neural Networks [6.576051895863941]
リプシッツ連続性は任意の予測モデルの重要な機能特性である。
ニューラルネットワークのリプシッツ挙動を調べた。
リプシッツ下界の顕著な忠実さを示し、リプシッツ上界と下界の両方で顕著な二重発振傾向を同定し、ラベルノイズが関数の滑らかさと一般化に与える影響を説明する。
論文 参考訳(メタデータ) (2023-02-21T18:59:40Z) - A Nearly Tight Bound for Fitting an Ellipsoid to Gaussian Random Points [50.90125395570797]
このことは対数的因子の中でのciteSaundersonCPW12 の予想をほぼ成立させる。
後者の予想は、機械学習とある種の統計上の問題に対する2乗下界との結びつきから、過去10年間で大きな注目を集めている。
論文 参考訳(メタデータ) (2022-12-21T17:48:01Z) - There is no Accuracy-Interpretability Tradeoff in Reinforcement Learning
for Mazes [64.05903267230467]
相互理解性は,強化学習システムにおける信頼性に不可欠なビルディングブロックである。
場合によっては、最適性を保ちつつ、政策の解釈可能性を達成することができることを示す。
論文 参考訳(メタデータ) (2022-06-09T04:23:26Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - On Lipschitz Regularization of Convolutional Layers using Toeplitz
Matrix Theory [77.18089185140767]
リプシッツ正則性は現代のディープラーニングの重要な性質として確立されている。
ニューラルネットワークのリプシッツ定数の正確な値を計算することはNPハードであることが知られている。
より厳密で計算が容易な畳み込み層に対する新しい上限を導入する。
論文 参考訳(メタデータ) (2020-06-15T13:23:34Z) - The Lipschitz Constant of Self-Attention [27.61634862685452]
ニューラルネットワークのリプシッツ定数は、ディープラーニングにおいて様々な文脈で研究されている。
配列モデリングに広く用いられている非線形ニューラルネットワークモジュールである自己アテンションのリプシッツ定数について検討する。
論文 参考訳(メタデータ) (2020-06-08T16:08:38Z) - Learning Near Optimal Policies with Low Inherent Bellman Error [115.16037976819331]
エピソード強化学習における近似線形作用値関数を用いた探索問題について検討する。
我々は,検討した設定に対して最適な統計率を達成するアルゴリズムを用いて,Emphbatch仮定のみを用いて探索を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-02-29T02:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。