Fugu-MT 論文翻訳(概要): Robust Transformer with Locality Inductive Bias and Feature Normalization

論文の概要: Robust Transformer with Locality Inductive Bias and Feature Normalization

arxiv url: http://arxiv.org/abs/2301.11553v1
Date: Fri, 27 Jan 2023 06:39:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-30 16:24:00.579391
Title: Robust Transformer with Locality Inductive Bias and Feature Normalization
Title（参考訳）: 局所誘導バイアスをもつロバスト変圧器と特徴正規化
Authors: Omid Nejati Manzari, Hossein Kashiani, Hojat Asgarian Dehkordi, Shahriar Baradaran Shokouhi
Abstract要約: 視覚変換器は、アテンションベースのネットワークを用いて、様々なコンピュータビジョンタスクに対して最先端の結果をもたらすことが実証されている。対向摂動に対する視覚変換器のロバスト性を調べるために,局所性iN局所性(LNL)変換器モデルを提案する。 LNLは、最先端の研究と比較して、クリーンで堅牢な精度で1.1%と35%の利得を得る。
参考スコア（独自算出の注目度）: 1.290382979353427
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision transformers have been demonstrated to yield state-of-the-art results on a variety of computer vision tasks using attention-based networks. However, research works in transformers mostly do not investigate robustness/accuracy trade-off, and they still struggle to handle adversarial perturbations. In this paper, we explore the robustness of vision transformers against adversarial perturbations and try to enhance their robustness/accuracy trade-off in white box attack settings. To this end, we propose Locality iN Locality (LNL) transformer model. We prove that the locality introduction to LNL contributes to the robustness performance since it aggregates local information such as lines, edges, shapes, and even objects. In addition, to further improve the robustness performance, we encourage LNL to extract training signal from the moments (a.k.a., mean and standard deviation) and the normalized features. We validate the effectiveness and generality of LNL by achieving state-of-the-art results in terms of accuracy and robustness metrics on German Traffic Sign Recognition Benchmark (GTSRB) and Canadian Institute for Advanced Research (CIFAR-10). More specifically, for traffic sign classification, the proposed LNL yields gains of 1.1% and ~35% in terms of clean and robustness accuracy compared to the state-of-the-art studies.
Abstract（参考訳）: 視覚トランスフォーマーは、注意に基づくネットワークを用いて様々なコンピュータビジョンタスクに最先端の結果をもたらすことが実証されている。しかし、変圧器の研究は、多くの場合、堅牢性や精度のトレードオフを調査せず、敵の摂動を扱うのに苦戦している。本稿では,対向摂動に対する視覚トランスフォーマーのロバスト性について検討し,ホワイトボックス攻撃におけるロバスト性と精度のトレードオフの強化を試みる。そこで我々はLocality iN Locality (LNL) Transformerモデルを提案する。 LNLの局所性導入は,線やエッジ,形状,さらにはオブジェクトなどの局所情報を集約するので,ロバスト性向上に寄与することを示す。さらに,ロバスト性向上のために,モーメント(平均偏差,標準偏差)と正規化特徴から学習信号を抽出することを推奨した。我々は,ドイツ交通信号認識ベンチマーク (GTSRB) とカナダ先進研究所 (CIFAR-10) の精度とロバスト性指標を用いて,最先端の成果を達成し,LNLの有効性と一般性を検証する。より具体的には、交通標識分類において、提案されたLNLは、最先端の研究と比較して、クリーンでロバストな精度で1.1%、~35%の利得が得られる。

関連論文リスト

Knowledge Regularized Negative Feature Tuning of Vision-Language Models for Out-of-Distribution Detection [54.433899174017185]
信頼性の高い機械学習モデルを構築するには、アウト・オブ・ディストリビューション(OOD)検出が不可欠である。我々はKR-NFT(Knowledge Regularized Negative Feature Tuning)と呼ばれる新しい手法を提案する。 NFTは、事前訓練されたテキスト特徴に分布認識変換を適用し、正および負の特徴を異なる空間に効果的に分離する。 ImageNetデータセットから数発のサンプルをトレーニングすると、KR-NFTはID分類精度とOOD検出を改善するだけでなく、FPR95を5.44%削減する。
論文参考訳（メタデータ） (2025-07-26T07:44:04Z)
Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文参考訳（メタデータ） (2025-04-05T16:25:34Z)
On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。 LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文参考訳（メタデータ） (2025-01-24T15:34:50Z)
Transforming Indoor Localization: Advanced Transformer Architecture for NLOS Dominated Wireless Environments with Distributed Sensors [7.630782404476683]
本稿では,電力遅延プロファイル (PDP) の可変固有表現を保存する新しいトークン化手法であるSensor Snapshot Tokenization (SST) を提案する。また,Swish-Gated Linear Unit-based Transformer (L-SwiGLU Transformer) モデルを提案する。
論文参考訳（メタデータ） (2025-01-14T01:16:30Z)
How Out-of-Distribution Detection Learning Theory Enhances Transformer: Learnability and Reliability [10.056026416603006]
本稿では,変圧器のOOD検出確率近似(PAC)理論を紹介する。条件下での十分なデータで、アウトリーチを正確に表現し、区別できることが示される。このアプローチは、学習可能性を確保し、インレーヤとアウトレーヤの間の決定境界を洗練する新しいアルゴリズムをもたらす。
論文参考訳（メタデータ） (2024-06-13T17:54:09Z)
Transformers Learn Low Sensitivity Functions: Investigations and Implications [18.77893015276986]
トランスフォーマーは多くのタスクで最先端の精度と堅牢性を達成する。入力におけるトークンのランダムな摂動に対するモデルの感度を統一計量として同定する。我々は、CNN、CNN、ConvMixers、LSTMよりも、視覚と言語の両方のタスクにおいて、トランスフォーマーの感度が低いことを示す。
論文参考訳（メタデータ） (2024-03-11T17:12:09Z)
Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文参考訳（メタデータ） (2023-05-23T04:20:13Z)
The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文参考訳（メタデータ） (2022-10-12T15:25:19Z)
Dual Progressive Transformations for Weakly Supervised Semantic Segmentation [23.68115323096787]
弱教師付きセマンティックセグメンテーション(WSSS)はコンピュータビジョンにおいて難しい課題である。グローバルに完全かつ局所的に正確なクラスアクティベーションマップをマイニングするための畳み込みニューラルネットワーク精製変換器(CRT)を提案する。提案したCRTは、弱教師付きセマンティックセグメンテーションタスクの両方において、最先端の性能を実現する。
論文参考訳（メタデータ） (2022-09-30T03:42:52Z)
Unified Normalization for Accelerating and Stabilizing Transformers [35.07454490355906]
層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。 LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
論文参考訳（メタデータ） (2022-08-02T08:41:31Z)
Vision Transformer Equipped with Neural Resizer on Facial Expression Recognition Task [1.3048920509133808]
本稿では,データ駆動方式で情報とダウンスケーリングを補償することでTransformerをサポートする新しいトレーニングフレームワークであるNeural Resizerを提案する。 F-PDLS損失関数を用いたニューラルリサイザ実験により,Transformerの変種での性能が向上した。
論文参考訳（メタデータ） (2022-04-05T13:04:04Z)
Efficient Localness Transformer for Smart Sensor-Based Energy Disaggregation [8.828396559882954]
非侵襲負荷モニタリング(NILM)のための効率的な局所性変換器を提案する。具体的には正規化関数を利用し、行列乗算の順序を近似自己アテンションに切り替える。提案するELTransformerの有効性と有効性は,最先端のベースラインと比較して著しく向上した。
論文参考訳（メタデータ） (2022-03-29T22:58:39Z)
The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文参考訳（メタデータ） (2021-10-25T17:01:29Z)
Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-02-09T10:55:27Z)
Effects of Parameter Norm Growth During Transformer Training: Inductive Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文参考訳（メタデータ） (2020-10-19T17:40:38Z)
A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。 cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文参考訳（メタデータ） (2020-09-29T07:08:35Z)
Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文参考訳（メタデータ） (2020-04-17T13:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。