論文の概要: Are Transformers More Robust? Towards Exact Robustness Verification for
Transformers
- arxiv url: http://arxiv.org/abs/2202.03932v4
- Date: Fri, 19 May 2023 10:54:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 20:11:46.564211
- Title: Are Transformers More Robust? Towards Exact Robustness Verification for
Transformers
- Title(参考訳): トランスフォーマーはより堅牢か?
変圧器の厳密なロバスト性検証に向けて
- Authors: Brian Hsuan-Cheng Liao, Chih-Hong Cheng, Hasan Esen, Alois Knoll
- Abstract要約: 本稿では,トランスフォーマーのロバスト性問題について検討する。
具体的には,Sparsemaxベースのトランスフォーマーに着目し,その最大ロバスト性をMIQCP(Mixed Quadratically Constrained Programming)問題に還元する。
次に、Sparsemaxベースのトランスフォーマーのロバスト性を従来のMLP(Multi-Layer-Perceptron)NNと比較するために、Land Departureを用いて実験を行った。
- 参考スコア(独自算出の注目度): 3.2259574483835673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an emerging type of Neural Networks (NNs), Transformers are used in many
domains ranging from Natural Language Processing to Autonomous Driving. In this
paper, we study the robustness problem of Transformers, a key characteristic as
low robustness may cause safety concerns. Specifically, we focus on
Sparsemax-based Transformers and reduce the finding of their maximum robustness
to a Mixed Integer Quadratically Constrained Programming (MIQCP) problem. We
also design two pre-processing heuristics that can be embedded in the MIQCP
encoding and substantially accelerate its solving. We then conduct experiments
using the application of Land Departure Warning to compare the robustness of
Sparsemax-based Transformers against that of the more conventional
Multi-Layer-Perceptron (MLP) NNs. To our surprise, Transformers are not
necessarily more robust, leading to profound considerations in selecting
appropriate NN architectures for safety-critical domain applications.
- Abstract(参考訳): 新しいタイプのニューラルネットワーク(nns)として、トランスフォーマーは自然言語処理から自動運転まで、さまざまな領域で使われている。
本稿では,トランスフォーマーのロバスト性問題について検討する。
具体的には,Sparsemaxベースのトランスフォーマーに着目し,MIQCP(Mixed Integer Quadratically Constrained Programming)問題への最大のロバストさの発見を減らす。
また、MIQCPエンコーディングに組み込むことができる2つの前処理ヒューリスティックを設計し、その解法を大幅に高速化する。
次に、Sparsemaxベースのトランスフォーマーのロバスト性を従来のマルチ層パーセプトロン(MLP)NNと比較するために、Land Departure Warningを用いて実験を行った。
驚いたことに、トランスフォーマーは必ずしも強固ではないため、安全クリティカルなドメイン・アプリケーションに適したnnアーキテクチャを選択する上での深い考慮が必要となる。
関連論文リスト
- Transformers are Efficient Compilers, Provably [11.459397066286822]
トランスフォーマーベースの大規模言語モデル(LLM)は、幅広い言語関連タスクにおいて驚くほど堅牢なパフォーマンスを示している。
本稿では,表現力の観点から,トランスフォーマーをコンパイラとして用いることの正式な調査に向けて第一歩を踏み出す。
代表言語であるMini-Huskyを導入し、現代のC言語の特徴をカプセル化する。
論文 参考訳(メタデータ) (2024-10-07T20:31:13Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Do Efficient Transformers Really Save Computation? [32.919672616480135]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。
以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。
我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文 参考訳(メタデータ) (2024-02-21T17:00:56Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Neural Architecture Search on Efficient Transformers and Beyond [23.118556295894376]
ニューラルアーキテクチャサーチ(NAS)技術を用いて,効率的なトランスフォーマーのための最適なアーキテクチャを見つけるための新しいフレームワークを提案する。
我々は,効率的なトランスフォーマーの最適アーキテクチャが標準トランスフォーマーと比較して計算量が少ないことを観察した。
検索したアーキテクチャは標準のTransformerに匹敵する精度を維持しており、計算効率が著しく向上している。
論文 参考訳(メタデータ) (2022-07-28T08:41:41Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Transformer Acceleration with Dynamic Sparse Attention [20.758709319088865]
本稿では,トランスフォーマーの注意における動的間隔を効果的に活用する動的スパース注意(DSA)を提案する。
われわれのアプローチは、精度とモデルの複雑さのトレードオフを改善することができる。
論文 参考訳(メタデータ) (2021-10-21T17:31:57Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。
提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。
これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文 参考訳(メタデータ) (2020-02-16T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。