論文の概要: Understanding the Regularity of Self-Attention with Optimal Transport
- arxiv url: http://arxiv.org/abs/2312.14820v1
- Date: Fri, 22 Dec 2023 16:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 14:15:30.256103
- Title: Understanding the Regularity of Self-Attention with Optimal Transport
- Title(参考訳): 最適移動による自己注意の規則性理解
- Authors: Val\'erie Castin, Pierre Ablin, Gabriel Peyr\'e
- Abstract要約: 本稿では,ニューラルネットワークのロバスト性を測定する攻撃非依存的な手段を提供する,自己注意の局所的なリプシッツ定数について検討する。
いくつかの入力に対して、トークンを摂動前に重複する攻撃は、単にトークンを移動させる攻撃よりも効率的であることを示す。
- 参考スコア(独自算出の注目度): 10.082299120535419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers and their multi-head attention mechanism have completely changed
the machine learning landscape in just a few years, by outperforming
state-of-art models in a wide range of domains. Still, little is known about
their robustness from a theoretical perspective. We tackle this problem by
studying the local Lipschitz constant of self-attention, that provides an
attack-agnostic way of measuring the robustness of a neural network. We adopt a
measure-theoretic framework, by viewing inputs as probability measures equipped
with the Wasserstein distance. This allows us to generalize attention to inputs
of infinite length, and to derive an upper bound and a lower bound on the
Lipschitz constant of self-attention on compact sets. The lower bound
significantly improves prior results, and grows more than exponentially with
the radius of the compact set, which rules out the possibility of obtaining
robustness guarantees without any additional constraint on the input space. Our
results also point out that measures with a high local Lipschitz constant are
typically made of a few diracs, with a very unbalanced distribution of mass.
Finally, we analyze the stability of self-attention under perturbations that
change the number of tokens, which appears to be a natural question in the
measure-theoretic framework. In particular, we show that for some inputs,
attacks that duplicate tokens before perturbing them are more efficient than
attacks that simply move tokens. We call this phenomenon mass splitting.
- Abstract(参考訳): トランスフォーマーとそのマルチヘッドアテンションメカニズムは、幅広いドメインで最先端のモデルを上回ることで、わずか数年でマシンラーニングの状況を完全に変えました。
しかし、理論的な観点から彼らの堅牢性についてはほとんど分かっていない。
ニューラルネットワークのロバスト性を測定する攻撃非依存的な方法を提供する,自己注意の局所的なリプシッツ定数を研究することで,この問題に対処する。
入力をwasserstein距離を備えた確率測度として見ることにより,測定理論の枠組みを採用する。
これにより、無限長の入力に対する注意を一般化し、コンパクト集合上の自己アテンションのリプシッツ定数の上界と下界を導出することができる。
下限は先行結果を大幅に改善し、コンパクト集合の半径と指数関数的に増大し、入力空間に付加的な制約を伴わずに堅牢性保証を得る可能性を排除する。
我々の結果は、高局所リプシッツ定数の測度は典型的にはいくつかのディラックから構成されており、非常に不均衡な質量分布であることも指摘している。
最後に,指標数を変化させる摂動下での自己アテンションの安定性を解析し,測定理論の枠組みにおいて自然な問題と考えられる。
特に、いくつかの入力に対して、トークンを摂動前に重複する攻撃は、単にトークンを移動させる攻撃よりも効率的であることを示す。
この現象を質量分割と呼ぶ。
関連論文リスト
- Linear Log-Normal Attention with Unbiased Concentration [3.034257650900382]
本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。
本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。
ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-11-22T17:30:41Z) - Certified Robustness via Dynamic Margin Maximization and Improved
Lipschitz Regularization [43.98504250013897]
我々は、弱い方向に沿ってモデルのリプシッツ定数を規則化しながら、出力(ロジット)空間のマージンを増大させる頑健なトレーニングアルゴリズムを開発する。
境界の相対的精度は過剰な正規化を防ぎ、決定境界をより直接的に操作することができる。
MNIST, CIFAR-10 および Tiny-ImageNet データセットを用いた実験により,提案アルゴリズムが最先端技術と比較して競争力に向上した結果が得られることを確認した。
論文 参考訳(メタデータ) (2023-09-29T20:07:02Z) - Vacant Holes for Unsupervised Detection of the Outliers in Compact
Latent Representation [0.6091702876917279]
現実世界にデプロイされ、運用される機械学習モデルにとって、アウトレーヤの検出は重要なものだ。
本研究では,これらのモデルの特定のタイプに焦点をあてる: 変分オートエンコーダ(VAE)。
論文 参考訳(メタデータ) (2023-06-16T06:21:48Z) - An Analysis of Attention via the Lens of Exchangeability and Latent
Variable Models [85.71582578730383]
入力トークンは、位置エンコーディングを含むため、しばしば交換可能であることを示す。
我々は入力トークンの十分かつ最小限の表現の存在を確立する。
所望パラメータの注意が近似誤差まで潜伏した後部を推定することを証明する。
論文 参考訳(メタデータ) (2022-12-30T17:59:01Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Learning from History for Byzantine Robust Optimization [52.68913869776858]
分散学習の重要性から,ビザンチンの堅牢性が近年注目されている。
既存のロバストアグリゲーションルールの多くは、ビザンチンの攻撃者がいなくても収束しない可能性がある。
論文 参考訳(メタデータ) (2020-12-18T16:22:32Z) - Exact many-body scars and their stability in constrained quantum chains [55.41644538483948]
量子傷は、低い絡み合いエントロピーを特徴とする非熱的固有状態である。
本研究では,これらの正確な量子的傷点の摂動に対する応答について,システムサイズによる忠実度感受性のスケーリングを解析して検討する。
論文 参考訳(メタデータ) (2020-11-16T19:05:50Z) - Diffusive-to-ballistic crossover of symmetry violation in open many-body
systems [0.0]
量子多体系における対称性違反のダイナミクスについて、わずかにコヒーレントな(強度$lambda$)あるいは局所的および大域的対称性の非コヒーレントな破れについて検討する。
対称性の破れは, 拡散が長い時間で支配される前に, 発散時の拡散挙動から, 中間時間における弾道的, 超弾道的スケーリングまで, 拡散成長のクロスオーバーにつながることを示す。
論文 参考訳(メタデータ) (2020-09-30T18:00:00Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z) - Log-Likelihood Ratio Minimizing Flows: Towards Robust and Quantifiable
Neural Distribution Alignment [52.02794488304448]
そこで本研究では,対数様比統計量と正規化フローに基づく新しい分布アライメント手法を提案する。
入力領域の局所構造を保存する領域アライメントにおいて,結果の最小化を実験的に検証する。
論文 参考訳(メタデータ) (2020-03-26T22:10:04Z) - Hidden Cost of Randomized Smoothing [72.93630656906599]
本稿では、現在のランダム化平滑化による副作用を指摘する。
具体的には,1)スムーズな分類器の決定境界が小さくなり,クラスレベルでの精度の相違が生じること,2)学習過程における雑音増強の適用は,一貫性のない学習目的による縮小問題を必ずしも解決しない,という2つの主要なポイントを具体化し,証明する。
論文 参考訳(メタデータ) (2020-03-02T23:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。