論文の概要: Robustness Verification for Attention Networks using Mixed Integer
Programming
- arxiv url: http://arxiv.org/abs/2202.03932v1
- Date: Tue, 8 Feb 2022 15:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 14:13:29.069226
- Title: Robustness Verification for Attention Networks using Mixed Integer
Programming
- Title(参考訳): 混合整数計画を用いた注意ネットワークのロバスト性検証
- Authors: Hsuan-Cheng Liao, Chih-Hong Cheng, Maximilian Kneissl, Alois Knoll
- Abstract要約: 線形化層正規化とスパースマックス活性化を含むアテンションネットワークの変種を定式化する。
一般ニューラルネットワークにおけるソフトマックスアクティベーションにも適用可能な,スパースマックスアクティベーションのための新しいバウンディング手法を見出した。
注意ネットワークは一般的に一般的なニューラルネットワークよりも高い精度を提供するが、同じ大きさのマルチ層パーセプトロンに対して頑丈さは、必ずしも堅牢ではないことを驚くほど示している。
- 参考スコア(独自算出の注目度): 2.365702128814616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention networks such as transformers have been shown powerful in many
applications ranging from natural language processing to object recognition.
This paper further considers their robustness properties from both theoretical
and empirical perspectives. Theoretically, we formulate a variant of attention
networks containing linearized layer normalization and sparsemax activation,
and reduce its robustness verification to a Mixed Integer Programming problem.
Apart from a na\"ive encoding, we derive tight intervals from admissible
perturbation regions and examine several heuristics to speed up the
verification process. More specifically, we find a novel bounding technique for
sparsemax activation, which is also applicable to softmax activation in general
neural networks. Empirically, we evaluate our proposed techniques with a case
study on lane departure warning and demonstrate a performance gain of
approximately an order of magnitude. Furthermore, although attention networks
typically deliver higher accuracy than general neural networks, contrasting its
robustness against a similar-sized multi-layer perceptron surprisingly shows
that they are not necessarily more robust.
- Abstract(参考訳): 変換器のような注意ネットワークは、自然言語処理からオブジェクト認識まで、多くのアプリケーションで強力に示されてきた。
本稿では,そのロバスト性について,理論と経験的両面から考察する。
理論的には、線形化層正規化とスパースマックス活性化を含む注意ネットワークを定式化し、その堅牢性検証を混合整数計画問題に還元する。
na\" エンコーディングとは別に、許容摂動領域から厳密な間隔を導き、検証プロセスを高速化するためにいくつかのヒューリスティックを調べる。
より具体的には、一般的なニューラルネットワークにおけるsoftmaxアクティベーションにも適用可能な、スパースマックスアクティベーションのための新しいバウンディングテクニックを見つける。
実験により,提案手法を車線逸脱警告のケーススタディで評価し,約1桁の性能向上を実証した。
さらに、注意ネットワークは一般的に一般的なニューラルネットワークよりも高い精度を提供するが、類似のサイズのマルチ層パーセプトロンと対照的に、必ずしもロバストではないことを示す。
関連論文リスト
- Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。
本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。
代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文 参考訳(メタデータ) (2024-10-07T20:31:13Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Do Efficient Transformers Really Save Computation? [32.919672616480135]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。
以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。
我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文 参考訳(メタデータ) (2024-02-21T17:00:56Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Neural Architecture Search on Efficient Transformers and Beyond [23.118556295894376]
ニューラルアーキテクチャサーチ(NAS)技術を用いて,効率的なトランスフォーマーのための最適なアーキテクチャを見つけるための新しいフレームワークを提案する。
我々は,効率的なトランスフォーマーの最適アーキテクチャが標準トランスフォーマーと比較して計算量が少ないことを観察した。
検索したアーキテクチャは標準のTransformerに匹敵する精度を維持しており、計算効率が著しく向上している。
論文 参考訳(メタデータ) (2022-07-28T08:41:41Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Transformer Acceleration with Dynamic Sparse Attention [20.758709319088865]
本稿では,トランスフォーマーの注意における動的間隔を効果的に活用する動的スパース注意(DSA)を提案する。
われわれのアプローチは、精度とモデルの複雑さのトレードオフを改善することができる。
論文 参考訳(メタデータ) (2021-10-21T17:31:57Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。
提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。
これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文 参考訳(メタデータ) (2020-02-16T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。