論文の概要: Revisiting adapters with adversarial training
- arxiv url: http://arxiv.org/abs/2210.04886v1
- Date: Mon, 10 Oct 2022 17:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 15:42:54.758486
- Title: Revisiting adapters with adversarial training
- Title(参考訳): アドバサリートレーニングによるアダプタの再訪
- Authors: Sylvestre-Alvise Rebuffi, Francesco Croce, Sven Gowal
- Abstract要約: クリーン入力と逆入力の併用学習においてバッチ統計を分離する必要はないことを示す。
アダプターを用いたトレーニングにより,クリーントークンと逆トークンを線形に組み合わせることで,モデルスープが実現可能であることを示す。
- 参考スコア(独自算出の注目度): 39.018061382248085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While adversarial training is generally used as a defense mechanism, recent
works show that it can also act as a regularizer. By co-training a neural
network on clean and adversarial inputs, it is possible to improve
classification accuracy on the clean, non-adversarial inputs. We demonstrate
that, contrary to previous findings, it is not necessary to separate batch
statistics when co-training on clean and adversarial inputs, and that it is
sufficient to use adapters with few domain-specific parameters for each type of
input. We establish that using the classification token of a Vision Transformer
(ViT) as an adapter is enough to match the classification performance of dual
normalization layers, while using significantly less additional parameters.
First, we improve upon the top-1 accuracy of a non-adversarially trained
ViT-B16 model by +1.12% on ImageNet (reaching 83.76% top-1 accuracy). Second,
and more importantly, we show that training with adapters enables model soups
through linear combinations of the clean and adversarial tokens. These model
soups, which we call adversarial model soups, allow us to trade-off between
clean and robust accuracy without sacrificing efficiency. Finally, we show that
we can easily adapt the resulting models in the face of distribution shifts.
Our ViT-B16 obtains top-1 accuracies on ImageNet variants that are on average
+4.00% better than those obtained with Masked Autoencoders.
- Abstract(参考訳): 敵の訓練は一般的に防御機構として用いられるが、近年の研究ではレギュラライザーとしても機能することが示されている。
ニューラルネットワークをクリーンかつ逆入力で併用することにより、クリーンで非逆入力の分類精度を向上させることができる。
従来の知見とは対照的に,クリーン入力と逆入力を併用する場合にはバッチ統計を分離する必要はなく,各入力に対してドメイン固有のパラメータがほとんどないアダプタを使用すれば十分であることを示す。
視覚トランスフォーマタ(vit)の分類トークンをアダプタとして使用すると,2層正規化層の分類性能に匹敵するが,追加パラメータは大幅に減少する。
まず,非敵訓練型vit-b16モデルのtop-1精度を,imagenetの+1.12%向上させた(top-1精度83.76%に達した)。
第2に,さらに重要なのは,アダプタによるトレーニングによって,クリーントークンと敵トークンのリニアコンビネーションによるモデルスープが可能になることだ。
これらのモデルスープは、逆モデルスープと呼ばれ、効率を犠牲にすることなく、クリーンとロバストな精度のトレードオフを可能にします。
最後に,分布変化に直面した結果のモデルを容易に適応できることを示す。
我々のViT-B16は、Masked Autoencodersで得られたものよりも平均+4.00%高いImageNetの変種でトップ1の精度を得る。
関連論文リスト
- Towards Robust Vision Transformer via Masked Adaptive Ensemble [23.986968861837813]
対戦訓練(AT)は、敵攻撃に対するビジョントランスフォーマー(ViT)の堅牢性を向上させるのに役立つ。
本稿では,新たに開発した適応アンサンブルでブリッジされた検出器と分類器を含む新しいViTアーキテクチャを提案する。
CIFAR-10における我々のViTアーキテクチャは, それぞれ90.3%, 49.8%の正正正正正正正正正正正正正正正正正正正正正正正正正正正則を達成している。
論文 参考訳(メタデータ) (2024-07-22T05:28:29Z) - On adversarial training and the 1 Nearest Neighbor classifier [8.248839892711478]
対人訓練の性能を,単純な1NN(Nearest Neighbor)分類器と比較した。
CIFAR10、MNIST、Fashion-MNISTから得られた135種類のバイナリ画像分類問題の実験。
1NNはトレーニング中に使用したものとわずかに異なる摂動に対する堅牢性という点で、ほとんどすべてに優れています。
論文 参考訳(メタデータ) (2024-04-09T13:47:37Z) - SkipViT: Speeding Up Vision Transformers with a Token-Level Skip
Connection [3.960622297616708]
本稿では、異なる低コストの計算経路を分離して送信することで、重要でないトークン間の不要な相互作用量を最適化する手法を提案する。
スクラッチからViT-smallをトレーニングする実験結果から,SkipViTはトークンの55%を効果的に削減でき,トレーニングスループットは13%以上向上した。
論文 参考訳(メタデータ) (2024-01-27T04:24:49Z) - Adapters Mixup: Mixing Parameter-Efficient Adapters to Enhance the Adversarial Robustness of Fine-tuned Pre-trained Text Classifiers [9.250758784663411]
AdpMixupは、アダプタによる微調整とミックスアップによる敵の増強を組み合わせて、堅牢な推論のために既存の知識を動的に活用する。
実験によると、AdpMixupは、既知の攻撃と未知の攻撃の両方において、トレーニング効率と堅牢性の間の最良のトレードオフを達成する。
論文 参考訳(メタデータ) (2024-01-18T16:27:18Z) - Co-training $2^L$ Submodels for Visual Recognition [67.02999567435626]
サブモデルコトレーニングは、コトレーニング、自己蒸留、深さに関連する正規化手法である。
サブモデルのコトレーニングは,画像分類やセマンティックセグメンテーションなどの認識タスクのためのバックボーンのトレーニングに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-09T14:38:09Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - Removing Batch Normalization Boosts Adversarial Training [83.08844497295148]
敵の訓練(AT)は、敵の攻撃に対して深層ニューラルネットワークを防御する。
主なボトルネックは、広く使われているバッチ正規化(BN)であり、ATにおけるクリーンなおよび敵対的なトレーニングサンプルの異なる統計をモデル化するのに苦労している。
我々のNoFrost法は, 正規化自由ネットワークの最近の進歩をATに拡張する。
論文 参考訳(メタデータ) (2022-07-04T01:39:37Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。