論文の概要: Robust Transformer with Locality Inductive Bias and Feature
Normalization
- arxiv url: http://arxiv.org/abs/2301.11553v1
- Date: Fri, 27 Jan 2023 06:39:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 16:24:00.579391
- Title: Robust Transformer with Locality Inductive Bias and Feature
Normalization
- Title(参考訳): 局所誘導バイアスをもつロバスト変圧器と特徴正規化
- Authors: Omid Nejati Manzari, Hossein Kashiani, Hojat Asgarian Dehkordi,
Shahriar Baradaran Shokouhi
- Abstract要約: 視覚変換器は、アテンションベースのネットワークを用いて、様々なコンピュータビジョンタスクに対して最先端の結果をもたらすことが実証されている。
対向摂動に対する視覚変換器のロバスト性を調べるために,局所性iN局所性(LNL)変換器モデルを提案する。
LNLは、最先端の研究と比較して、クリーンで堅牢な精度で1.1%と35%の利得を得る。
- 参考スコア(独自算出の注目度): 1.290382979353427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have been demonstrated to yield state-of-the-art results
on a variety of computer vision tasks using attention-based networks. However,
research works in transformers mostly do not investigate robustness/accuracy
trade-off, and they still struggle to handle adversarial perturbations. In this
paper, we explore the robustness of vision transformers against adversarial
perturbations and try to enhance their robustness/accuracy trade-off in white
box attack settings. To this end, we propose Locality iN Locality (LNL)
transformer model. We prove that the locality introduction to LNL contributes
to the robustness performance since it aggregates local information such as
lines, edges, shapes, and even objects. In addition, to further improve the
robustness performance, we encourage LNL to extract training signal from the
moments (a.k.a., mean and standard deviation) and the normalized features. We
validate the effectiveness and generality of LNL by achieving state-of-the-art
results in terms of accuracy and robustness metrics on German Traffic Sign
Recognition Benchmark (GTSRB) and Canadian Institute for Advanced Research
(CIFAR-10). More specifically, for traffic sign classification, the proposed
LNL yields gains of 1.1% and ~35% in terms of clean and robustness accuracy
compared to the state-of-the-art studies.
- Abstract(参考訳): 視覚トランスフォーマーは、注意に基づくネットワークを用いて様々なコンピュータビジョンタスクに最先端の結果をもたらすことが実証されている。
しかし、変圧器の研究は、多くの場合、堅牢性や精度のトレードオフを調査せず、敵の摂動を扱うのに苦戦している。
本稿では,対向摂動に対する視覚トランスフォーマーのロバスト性について検討し,ホワイトボックス攻撃におけるロバスト性と精度のトレードオフの強化を試みる。
そこで我々はLocality iN Locality (LNL) Transformerモデルを提案する。
LNLの局所性導入は,線やエッジ,形状,さらにはオブジェクトなどの局所情報を集約するので,ロバスト性向上に寄与することを示す。
さらに,ロバスト性向上のために,モーメント(平均偏差,標準偏差)と正規化特徴から学習信号を抽出することを推奨した。
我々は,ドイツ交通信号認識ベンチマーク (GTSRB) とカナダ先進研究所 (CIFAR-10) の精度とロバスト性指標を用いて,最先端の成果を達成し,LNLの有効性と一般性を検証する。
より具体的には、交通標識分類において、提案されたLNLは、最先端の研究と比較して、クリーンでロバストな精度で1.1%、~35%の利得が得られる。
関連論文リスト
- Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Dual Progressive Transformations for Weakly Supervised Semantic
Segmentation [23.68115323096787]
弱教師付きセマンティックセグメンテーション(WSSS)はコンピュータビジョンにおいて難しい課題である。
グローバルに完全かつ局所的に正確なクラスアクティベーションマップをマイニングするための畳み込みニューラルネットワーク精製変換器(CRT)を提案する。
提案したCRTは、弱教師付きセマンティックセグメンテーションタスクの両方において、最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-30T03:42:52Z) - Unified Normalization for Accelerating and Stabilizing Transformers [35.07454490355906]
層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。
我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
論文 参考訳(メタデータ) (2022-08-02T08:41:31Z) - Vision Transformer Equipped with Neural Resizer on Facial Expression
Recognition Task [1.3048920509133808]
本稿では,データ駆動方式で情報とダウンスケーリングを補償することでTransformerをサポートする新しいトレーニングフレームワークであるNeural Resizerを提案する。
F-PDLS損失関数を用いたニューラルリサイザ実験により,Transformerの変種での性能が向上した。
論文 参考訳(メタデータ) (2022-04-05T13:04:04Z) - Efficient Localness Transformer for Smart Sensor-Based Energy
Disaggregation [8.828396559882954]
非侵襲負荷モニタリング(NILM)のための効率的な局所性変換器を提案する。
具体的には正規化関数を利用し、行列乗算の順序を近似自己アテンションに切り替える。
提案するELTransformerの有効性と有効性は,最先端のベースラインと比較して著しく向上した。
論文 参考訳(メタデータ) (2022-03-29T22:58:39Z) - The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。
我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文 参考訳(メタデータ) (2021-10-25T17:01:29Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。