Fugu-MT 論文翻訳(概要): MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness

論文の概要: MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness

arxiv url: http://arxiv.org/abs/2312.04960v2
Date: Wed, 17 Jan 2024 13:47:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 19:49:42.468501
Title: MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness
Title（参考訳）: MIMIR:相互情報に基づく対向ロバスト性のためのマスク画像モデリング
Authors: Xiaoyun Xu, Shujian Yu, Jingzheng Wu, Stjepan Picek
Abstract要約: 視覚変換器(ViT)は畳み込みニューラルネットワーク(CNN)と比較して様々なタスクにおいて優れた性能を発揮する本報告では, マスク付き画像モデリングを事前学習時に活用することにより, 異なる対角的訓練手法を構築することを目的とした, 新たな防御手法MIMIRを提案する。以上の結果から,MIMIRではCIFAR-10では4.19%,ImageNet-1Kでは5.52%の精度向上が見られた。
参考スコア（独自算出の注目度）: 31.76309077313509
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Transformers (ViTs) achieve superior performance on various tasks compared to convolutional neural networks (CNNs), but ViTs are also vulnerable to adversarial attacks. Adversarial training is one of the most successful methods to build robust CNN models. Thus, recent works explored new methodologies for adversarial training of ViTs based on the differences between ViTs and CNNs, such as better training strategies, preventing attention from focusing on a single block, or discarding low-attention embeddings. However, these methods still follow the design of traditional supervised adversarial training, limiting the potential of adversarial training on ViTs. This paper proposes a novel defense method, MIMIR, which aims to build a different adversarial training methodology by utilizing Masked Image Modeling at pre-training. We create an autoencoder that accepts adversarial examples as input but takes the clean examples as the modeling target. Then, we create a mutual information (MI) penalty following the idea of the Information Bottleneck. Among the two information source inputs and corresponding adversarial perturbation, the perturbation information is eliminated due to the constraint of the modeling target. Next, we provide a theoretical analysis of MIMIR using the bounds of the MI penalty. We also design two adaptive attacks when the adversary is aware of the MIMIR defense and show that MIMIR still performs well. The experimental results show that MIMIR improves (natural and adversarial) accuracy on average by 4.19% on CIFAR-10 and 5.52% on ImageNet-1K, compared to baselines. On Tiny-ImageNet, we obtained improved natural accuracy of 2.99\% on average and comparable adversarial accuracy. Our code and trained models are publicly available https://github.com/xiaoyunxxy/MIMIR.
Abstract（参考訳）: 視覚トランスフォーマー (vits) は畳み込みニューラルネットワーク (cnns) と比較して様々なタスクで優れた性能を発揮するが、vitsは逆攻撃にも弱い。敵の訓練は、堅牢なCNNモデルを構築する最も成功した方法の1つである。そこで,近年の研究では,vitsとcnnの違い,例えばトレーニング戦略の改善,シングルブロックへの注意の集中の防止,低アテンション埋め込みの破棄などに基づいて,vitsの敵対的トレーニングのための新しい手法が検討されている。しかし、これらの手法は従来型の教師付き対人訓練の設計に従い、ViTの対人訓練の可能性を制限する。本稿では,新しい防御法であるmimirを提案し,プレトレーニング時のマスク画像モデリングを活用し,異なる対向訓練手法の構築を目指す。我々は、逆例を入力として受け入れるオートエンコーダを作成するが、クリーン例をモデリング対象とする。次に、情報ボトルネックの考え方に従って相互情報(mi)ペナルティを作成する。 2つの情報ソース入力と対応する対向的摂動のうち、モデリング対象の制約により摂動情報が排除される。次に,miペナルティの限界を用いたmimirの理論的解析を行う。また、敵がMIMIRの防御に気付いていれば2つのアダプティブアタックを設計し、MIMIRの動作が良好であることを示す。実験の結果、MIMIRはベースラインに比べてCIFAR-10では4.19%、ImageNet-1Kでは5.52%の精度で(自然と敵の)精度が向上した。 Tiny-ImageNetでは, 自然精度が2.99\%向上し, 対逆精度が向上した。私たちのコードとトレーニングされたモデルは、https://github.com/xiaoyunxxy/MIMIR.comで公開されています。

関連論文リスト

Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文参考訳（メタデータ） (2025-04-05T16:25:34Z)
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。 ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-11-25T04:17:24Z)
A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models [9.304845676825584]
本稿では,複数の攻撃戦略と高度な機械学習技術を統合した,新たな敵訓練フレームワークを提案する。 CIFAR-10 や CIFAR-100 などの実世界のデータセットで行った実験により,提案手法がモデルロバスト性を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-10-18T23:47:46Z)
CALoR: Towards Comprehensive Model Inversion Defense [43.2642796582236]
Model Inversion Attacks (MIAs)は、プライバシに敏感なトレーニングデータを、リリースされた機械学習モデルにエンコードされた知識から回復することを目的としている。 MIA分野の最近の進歩は、複数のシナリオにおける攻撃性能を大幅に向上させた。信頼性適応と低ランク圧縮を統合した堅牢な防御機構を提案する。
論文参考訳（メタデータ） (2024-10-08T08:44:01Z)
Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。 DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文参考訳（メタデータ） (2024-08-03T08:07:03Z)
Towards Robust Vision Transformer via Masked Adaptive Ensemble [23.986968861837813]
対戦訓練(AT)は、敵攻撃に対するビジョントランスフォーマー(ViT)の堅牢性を向上させるのに役立つ。本稿では,新たに開発した適応アンサンブルでブリッジされた検出器と分類器を含む新しいViTアーキテクチャを提案する。 CIFAR-10における我々のViTアーキテクチャは, それぞれ90.3%, 49.8%の正正正正正正正正正正正正正正正正正正正正正正正正正正正則を達成している。
論文参考訳（メタデータ） (2024-07-22T05:28:29Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
SpecFormer: Guarding Vision Transformer Robustness via Maximum Singular Value Penalization [39.09638432514626]
ビジョントランスフォーマー(ViT)は、ハイパフォーマンスのため、コンピュータビジョンでの利用が増えているが、敵攻撃に対する脆弱性が懸念されている。本研究は, 敵攻撃に対するViTsの強化に適したSpecFormerを導入し, 理論的基盤となる。
論文参考訳（メタデータ） (2024-01-02T14:27:24Z)
Experts Weights Averaging: A New General Training Scheme for Vision Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文参考訳（メタデータ） (2023-08-11T12:05:12Z)
Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial Defense [52.66971714830943]
マスク付き画像モデリング(MIM)は、自己教師付き視覚表現学習のフレームワークとして普及している。本稿では,この強力な自己教師型学習パラダイムが,下流の分類器に対して対角的ロバスト性を提供する方法について検討する。本稿では,デノナイジングのためのデコーダを用いて,デノナイジングのための対角防御手法を提案する。
論文参考訳（メタデータ） (2023-02-02T12:37:24Z)
When Adversarial Training Meets Vision Transformers: Recipes from Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。対人訓練にはプレトレーニングとSGDが必要であることが判明した。私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文参考訳（メタデータ） (2022-10-14T05:37:20Z)
A Light Recipe to Train Robust Vision Transformers [34.51642006926379]
我々は、視覚変換器(ViT)が、回避攻撃に対する機械学習モデルの堅牢性を改善するための基盤となるアーキテクチャとして機能することを示します。我々は、ImageNetデータセットのサブセットに関する厳密なアブレーション研究を用いて、独自の逆トレーニングレシピを用いて、この目的を達成する。提案手法は,完全なImageNet-1k上でのViTアーキテクチャと大規模モデルの異なるクラスに一般化可能であることを示す。
論文参考訳（メタデータ） (2022-09-15T16:00:04Z)
Self-Ensembling Vision Transformer (SEViT) for Robust Medical Image Classification [4.843654097048771]
ビジョントランスフォーマー(ViT)は、医療画像における様々なコンピュータビジョンタスクのために、畳み込みニューラルネットワーク(CNN)を置き換えるために競合している。近年の研究では、ViTsはそのような攻撃の影響を受けやすく、攻撃下での大幅な性能劣化が報告されている。本稿では,対戦型攻撃の存在下でのViTの堅牢性を高めるための,新たな自己認識手法を提案する。
論文参考訳（メタデータ） (2022-08-04T19:02:24Z)
Towards Efficient Adversarial Training on Vision Transformers [41.6396577241957]
敵の訓練は、堅牢なCNNを実現するための最も効果的な方法の1つである。本稿では,効率的な注意指導型対人訓練機構を提案する。高速な敵のトレーニング時間のわずか65%で、挑戦的なImageNetベンチマークの最先端の結果と一致します。
論文参考訳（メタデータ） (2022-07-21T14:23:50Z)
RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。 RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文参考訳（メタデータ） (2022-07-12T19:34:47Z)
Deeper Insights into ViTs Robustness towards Common Corruptions [82.79764218627558]
我々は、CNNのようなアーキテクチャ設計とCNNベースのデータ拡張戦略が、一般的な汚職に対するViTsの堅牢性にどのように影響するかを検討する。重なり合うパッチ埋め込みと畳み込みフィードフォワードネットワーク(FFN)がロバスト性の向上を実証する。また、2つの角度から入力値の増大を可能にする新しい条件付き手法も導入する。
論文参考訳（メタデータ） (2022-04-26T08:22:34Z)
Defending Variational Autoencoders from Adversarial Attacks with MCMC [74.36233246536459]
変分オートエンコーダ(VAE)は、様々な領域で使用される深部生成モデルである。以前の研究が示すように、視覚的にわずかに修正された入力に対する予期せぬ潜在表現と再構成を生成するために、VAEを簡単に騙すことができる。本稿では, 敵攻撃構築のための目的関数について検討し, モデルのロバスト性を評価する指標を提案し, 解決策を提案する。
論文参考訳（メタデータ） (2022-03-18T13:25:18Z)
Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-03-14T12:53:27Z)
Interpolated Joint Space Adversarial Training for Robust and Generalizable Defenses [82.3052187788609]
敵の訓練(AT)は、敵の攻撃に対する最も信頼できる防御の1つと考えられている。近年の研究では、新たな脅威モデルの下での対向サンプルによる一般化の改善が示されている。我々は、JSTM(Joint Space Threat Model)と呼ばれる新しい脅威モデルを提案する。 JSTMでは,新たな敵攻撃・防衛手法が開発されている。
論文参考訳（メタデータ） (2021-12-12T21:08:14Z)
On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文参考訳（メタデータ） (2021-03-29T14:48:24Z)
Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文参考訳（メタデータ） (2020-10-26T04:44:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。