論文の概要: SAFER: Sharpness Aware layer-selective Finetuning for Enhanced Robustness in vision transformers
- arxiv url: http://arxiv.org/abs/2501.01529v1
- Date: Thu, 02 Jan 2025 20:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:43.955342
- Title: SAFER: Sharpness Aware layer-selective Finetuning for Enhanced Robustness in vision transformers
- Title(参考訳): SAFER:視覚変換器のロバスト性向上のためのシャープネス認識層選択ファインタニング
- Authors: Bhavna Gopal, Huanrui Yang, Mark Horton, Yiran Chen,
- Abstract要約: ビジョントランス (ViT) は、先進的なコンピュータビジョンアプリケーションやマルチモーダル基盤モデルにおいて重要なバックボーンとなっている。
その強みにもかかわらず、ViTsは、畳み込みニューラルネットワーク(CNN)の脆弱性に匹敵する、あるいは超える敵の摂動に弱いままである。
本稿では,新しい層選択型微調整手法であるSAFERを用いて,ViTの対向オーバーフィッティングを緩和する。
- 参考スコア(独自算出の注目度): 9.100671508333724
- License:
- Abstract: Vision transformers (ViTs) have become essential backbones in advanced computer vision applications and multi-modal foundation models. Despite their strengths, ViTs remain vulnerable to adversarial perturbations, comparable to or even exceeding the vulnerability of convolutional neural networks (CNNs). Furthermore, the large parameter count and complex architecture of ViTs make them particularly prone to adversarial overfitting, often compromising both clean and adversarial accuracy. This paper mitigates adversarial overfitting in ViTs through a novel, layer-selective fine-tuning approach: SAFER. Instead of optimizing the entire model, we identify and selectively fine-tune a small subset of layers most susceptible to overfitting, applying sharpness-aware minimization to these layers while freezing the rest of the model. Our method consistently enhances both clean and adversarial accuracy over baseline approaches. Typical improvements are around 5%, with some cases achieving gains as high as 20% across various ViT architectures and datasets.
- Abstract(参考訳): ビジョントランス (ViT) は、先進的なコンピュータビジョンアプリケーションやマルチモーダル基盤モデルにおいて重要なバックボーンとなっている。
その強みにもかかわらず、ViTは畳み込みニューラルネットワーク(CNN)の脆弱性に匹敵する敵の摂動に弱いままである。
さらに、ViTの大きなパラメータ数と複雑なアーキテクチャは、特に敵のオーバーフィッティングを難しくし、しばしばクリーンかつ逆の精度を損なう。
本稿では,新しい層選択型微調整手法であるSAFERを用いて,ViTの対向オーバーフィッティングを緩和する。
モデル全体を最適化する代わりに、オーバーフィッティングに最も敏感なレイヤの小さなサブセットを特定し、選択的に微調整し、これらのレイヤにシャープネスを意識した最小化を適用しながら、残りのモデルを凍結させます。
本手法は,ベースラインアプローチよりもクリーンかつ逆方向の精度を常に向上させる。
典型的な改善は5%程度で、いくつかのケースでは、さまざまなViTアーキテクチャやデータセットで最大20%向上している。
関連論文リスト
- Defending Multimodal Backdoored Models by Repulsive Visual Prompt Tuning [13.802845998402677]
マルチモーダルコントラスト学習モデル(例えばCLIP)は、大規模な画像テキストデータセットから高品質な表現を学習することができる。
彼らはバックドア攻撃に対する重大な脆弱性を示し、深刻な安全性を懸念している。
本稿では,新しい防御手法としてRepulsive Visual Prompt Tuning (RVPT)を提案する。
論文 参考訳(メタデータ) (2024-12-29T08:09:20Z) - Attacking Transformers with Feature Diversity Adversarial Perturbation [19.597912600568026]
我々は,様々なブラックボックスモデルに対して強い伝達性を示すVTモデルに対して,ラベルフリーなホワイトボックス攻撃手法を提案する。
我々のインスピレーションは、ViTsにおける機能崩壊現象から来ており、重要な注意機構は機能の低周波成分に依存する。
論文 参考訳(メタデータ) (2024-03-10T00:55:58Z) - Soft Error Reliability Analysis of Vision Transformers [14.132398744731635]
自己注意機構を利用する視覚変換器(ViT)は、多くの古典的な視覚タスクにおいて優れた性能を示している。
既存のViTは、主に性能と精度を最適化するが、ソフトエラーによって引き起こされるViTの信頼性問題は概して見過ごされている。
本研究では,ViTの信頼性について検討し,異なるアーキテクチャの粒度の脆弱性について検討する。
論文 参考訳(メタデータ) (2023-02-21T06:17:40Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。
重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。
また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文 参考訳(メタデータ) (2022-04-26T08:22:34Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。