論文の概要: Understanding the Regularity of Self-Attention with Optimal Transport
- arxiv url: http://arxiv.org/abs/2312.14820v1
- Date: Fri, 22 Dec 2023 16:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 14:15:30.256103
- Title: Understanding the Regularity of Self-Attention with Optimal Transport
- Title(参考訳): 最適移動による自己注意の規則性理解
- Authors: Val\'erie Castin, Pierre Ablin, Gabriel Peyr\'e
- Abstract要約: 本稿では,ニューラルネットワークのロバスト性を測定する攻撃非依存的な手段を提供する,自己注意の局所的なリプシッツ定数について検討する。
いくつかの入力に対して、トークンを摂動前に重複する攻撃は、単にトークンを移動させる攻撃よりも効率的であることを示す。
- 参考スコア(独自算出の注目度): 10.082299120535419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers and their multi-head attention mechanism have completely changed
the machine learning landscape in just a few years, by outperforming
state-of-art models in a wide range of domains. Still, little is known about
their robustness from a theoretical perspective. We tackle this problem by
studying the local Lipschitz constant of self-attention, that provides an
attack-agnostic way of measuring the robustness of a neural network. We adopt a
measure-theoretic framework, by viewing inputs as probability measures equipped
with the Wasserstein distance. This allows us to generalize attention to inputs
of infinite length, and to derive an upper bound and a lower bound on the
Lipschitz constant of self-attention on compact sets. The lower bound
significantly improves prior results, and grows more than exponentially with
the radius of the compact set, which rules out the possibility of obtaining
robustness guarantees without any additional constraint on the input space. Our
results also point out that measures with a high local Lipschitz constant are
typically made of a few diracs, with a very unbalanced distribution of mass.
Finally, we analyze the stability of self-attention under perturbations that
change the number of tokens, which appears to be a natural question in the
measure-theoretic framework. In particular, we show that for some inputs,
attacks that duplicate tokens before perturbing them are more efficient than
attacks that simply move tokens. We call this phenomenon mass splitting.
- Abstract(参考訳): トランスフォーマーとそのマルチヘッドアテンションメカニズムは、幅広いドメインで最先端のモデルを上回ることで、わずか数年でマシンラーニングの状況を完全に変えました。
しかし、理論的な観点から彼らの堅牢性についてはほとんど分かっていない。
ニューラルネットワークのロバスト性を測定する攻撃非依存的な方法を提供する,自己注意の局所的なリプシッツ定数を研究することで,この問題に対処する。
入力をwasserstein距離を備えた確率測度として見ることにより,測定理論の枠組みを採用する。
これにより、無限長の入力に対する注意を一般化し、コンパクト集合上の自己アテンションのリプシッツ定数の上界と下界を導出することができる。
下限は先行結果を大幅に改善し、コンパクト集合の半径と指数関数的に増大し、入力空間に付加的な制約を伴わずに堅牢性保証を得る可能性を排除する。
我々の結果は、高局所リプシッツ定数の測度は典型的にはいくつかのディラックから構成されており、非常に不均衡な質量分布であることも指摘している。
最後に,指標数を変化させる摂動下での自己アテンションの安定性を解析し,測定理論の枠組みにおいて自然な問題と考えられる。
特に、いくつかの入力に対して、トークンを摂動前に重複する攻撃は、単にトークンを移動させる攻撃よりも効率的であることを示す。
この現象を質量分割と呼ぶ。
関連論文リスト
- Stick-breaking Attention [38.492552119793]
自己注意機構は伝統的にソフトマックス作用素に依存している。
顔長一般化問題を用いた現状の方法
スティック破砕法に基づく別の注意機構を提案する。
論文 参考訳(メタデータ) (2024-10-23T15:51:13Z) - KPZ scaling from the Krylov space [83.88591755871734]
近年,Cardar-Parisi-Zhangスケーリングをリアルタイムの相関器や自動相関器に示す超拡散が報告されている。
これらの結果から着想を得て,Krylov演算子に基づく相関関数のKPZスケーリングについて検討する。
論文 参考訳(メタデータ) (2024-06-04T20:57:59Z) - Causal Bandits with General Causal Models and Interventions [38.112806687145344]
本稿では、因果系における介入の逐次的設計のための因果バンドイット(CB)について考察する。
報奨関数の最適化は、後ろ視における最良の介入の順序に対する累積的後悔の尺度を最小化することによるものである。
論文 参考訳(メタデータ) (2024-03-01T02:28:49Z) - Some Fundamental Aspects about Lipschitz Continuity of Neural Networks [6.576051895863941]
リプシッツ連続性は任意の予測モデルの重要な機能特性である。
ニューラルネットワークのリプシッツ挙動を調べた。
リプシッツ下界の顕著な忠実さを示し、リプシッツ上界と下界の両方で顕著な二重発振傾向を同定し、ラベルノイズが関数の滑らかさと一般化に与える影響を説明する。
論文 参考訳(メタデータ) (2023-02-21T18:59:40Z) - A Nearly Tight Bound for Fitting an Ellipsoid to Gaussian Random Points [50.90125395570797]
このことは対数的因子の中でのciteSaundersonCPW12 の予想をほぼ成立させる。
後者の予想は、機械学習とある種の統計上の問題に対する2乗下界との結びつきから、過去10年間で大きな注目を集めている。
論文 参考訳(メタデータ) (2022-12-21T17:48:01Z) - There is no Accuracy-Interpretability Tradeoff in Reinforcement Learning
for Mazes [64.05903267230467]
相互理解性は,強化学習システムにおける信頼性に不可欠なビルディングブロックである。
場合によっては、最適性を保ちつつ、政策の解釈可能性を達成することができることを示す。
論文 参考訳(メタデータ) (2022-06-09T04:23:26Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale
of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。
特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文 参考訳(メタデータ) (2020-08-04T20:08:35Z) - On Lipschitz Regularization of Convolutional Layers using Toeplitz
Matrix Theory [77.18089185140767]
リプシッツ正則性は現代のディープラーニングの重要な性質として確立されている。
ニューラルネットワークのリプシッツ定数の正確な値を計算することはNPハードであることが知られている。
より厳密で計算が容易な畳み込み層に対する新しい上限を導入する。
論文 参考訳(メタデータ) (2020-06-15T13:23:34Z) - The Lipschitz Constant of Self-Attention [27.61634862685452]
ニューラルネットワークのリプシッツ定数は、ディープラーニングにおいて様々な文脈で研究されている。
配列モデリングに広く用いられている非線形ニューラルネットワークモジュールである自己アテンションのリプシッツ定数について検討する。
論文 参考訳(メタデータ) (2020-06-08T16:08:38Z) - Learning Near Optimal Policies with Low Inherent Bellman Error [115.16037976819331]
エピソード強化学習における近似線形作用値関数を用いた探索問題について検討する。
我々は,検討した設定に対して最適な統計率を達成するアルゴリズムを用いて,Emphbatch仮定のみを用いて探索を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-02-29T02:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。