論文の概要: TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial Robustness and Generalization Ability
- arxiv url: http://arxiv.org/abs/2405.17678v1
- Date: Mon, 27 May 2024 22:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 23:01:26.833699
- Title: TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial Robustness and Generalization Ability
- Title(参考訳): TIMA: ゼロショット対向ロバスト性と一般化能力のバランスをとるためのテキスト画像相互認識
- Authors: Fengji Ma, Li Liu, Hei Victor Cheng,
- Abstract要約: この研究は、大規模基礎モデルにおけるゼロショット一般化を保ちながら、ゼロショット対逆ロバスト性を達成するという課題に対処する。
本稿では,ゼロショット対向性と一般化のバランスをとるテキスト・イメージ相互認識(TIMA)手法を提案する。
- 参考スコア(独自算出の注目度): 8.896239176376488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses the challenge of achieving zero-shot adversarial robustness while preserving zero-shot generalization in large-scale foundation models, with a focus on the popular Contrastive Language-Image Pre-training (CLIP). Although foundation models were reported to have exceptional zero-shot generalization, they are highly vulnerable to adversarial perturbations. Existing methods achieve a comparable good tradeoff between zero-shot adversarial robustness and generalization under small adversarial perturbations. However, they fail to achieve a good tradeoff under large adversarial perturbations. To this end, we propose a novel Text-Image Mutual Awareness (TIMA) method that strikes a balance between zero-shot adversarial robustness and generalization. More precisely, we propose an Image-Aware Text (IAT) tuning mechanism that increases the inter-class distance of text embeddings by incorporating the Minimum Hyperspherical Energy (MHE). Simultaneously, fixed pre-trained image embeddings are used as cross-modal auxiliary supervision to maintain the similarity between the MHE-tuned and original text embeddings by the knowledge distillation, preserving semantic information between different classes. Besides, we introduce a Text-Aware Image (TAI) tuning mechanism, which increases inter-class distance between image embeddings during the training stage by Text-distance based Adaptive Margin (TAM). Similarly, a knowledge distillation is utilized to retain the similarity between fine-tuned and pre-trained image embeddings. Extensive experimental results demonstrate the effectiveness of our approach, showing impressive zero-shot performance against a wide range of adversarial perturbations while preserving the zero-shot generalization capabilities of the original CLIP model.
- Abstract(参考訳): 本研究は,大規模基盤モデルにおけるゼロショット一般化を保ちながら,ゼロショット対逆ロバスト性を達成するという課題に対処し,一般的なコントラスト言語-画像事前学習(CLIP)に注目した。
基礎モデルは例外的なゼロショット一般化が報告されているが、敵の摂動に対して非常に脆弱である。
既存の手法は、零ショット対向ロバスト性と小さな対向摂動下での一般化との間には、同等に良いトレードオフを達成している。
しかし、大きな敵の摂動の下では良いトレードオフを達成できなかった。
そこで本研究では,ゼロショット対向ロバストネスと一般化のバランスをとるテキスト画像相互認識(TIMA)手法を提案する。
より正確には、最小超球面エネルギー(MHE)を組み込むことで、テキスト埋め込みのクラス間距離を増大させる画像認識テキスト(IAT)チューニング機構を提案する。
同時に、固定された事前訓練された画像埋め込みは、知識蒸留によるMHEとオリジナルテキスト埋め込みの類似性を維持するために、異なるクラス間の意味情報を保存するために、クロスモーダル補助監督として使用される。
さらに,テキスト依存型適応マージン(TAM)によるトレーニング段階における画像埋め込み間のクラス間距離を増加させるテキスト認識画像(TAI)チューニング機構を導入する。
同様に、知識蒸留を用いて、微調整された画像と事前訓練された画像の埋め込みの類似性を維持する。
従来のCLIPモデルのゼロショット一般化能力を保ちながら,幅広い逆方向の摂動に対して印象的なゼロショット性能を示した。
関連論文リスト
- Saliency Attention and Semantic Similarity-Driven Adversarial Perturbation [0.0]
SASSP(Saliency Attention and Semantic similarity driven adversarial Perturbation)は、文脈的摂動の有効性を改善するために設計された。
提案手法は,単語選択と摂動のための3段階の戦略を取り入れたものである。
SASSPは高い攻撃成功率と低い単語摂動率を得た。
論文 参考訳(メタデータ) (2024-06-18T14:07:27Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Towards Robust Image Stitching: An Adaptive Resistance Learning against
Compatible Attacks [66.98297584796391]
画像縫合は、様々な視点から捉えた画像をシームレスに単一の視野画像に統合する。
一対の撮像画像が与えられたとき、人間の視覚システムに気づかない微妙な摂動と歪みは、対応の一致を攻撃しがちである。
本稿では,敵対的攻撃に対する画像縫合の堅牢性向上に向けた最初の試みについて述べる。
論文 参考訳(メタデータ) (2024-02-25T02:36:33Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Understanding Zero-Shot Adversarial Robustness for Large-Scale Models [31.295249927085475]
ゼロショット対角ロバスト性に対する大規模モデルの強調問題を特定し,検討する。
本研究では,テキスト埋め込みと対向的視覚特徴を対照学習と整合させるテキスト誘導型対向的学習損失を提案する。
当社のアプローチは,ImageNetと15のゼロショットデータセットに対して,平均31ポイント以上の改善を達成し,CLIPに対するゼロショット対逆ロバスト性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-12-14T04:08:56Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z) - Adaptive Clustering of Robust Semantic Representations for Adversarial
Image Purification [0.9203366434753543]
我々は、モデルに依存しず、目に見えない敵に対して汎用可能な、敵対攻撃に対する堅牢な防御を提案します。
本稿では,各クラスの潜在表現を抽出し,意味的類似性を持つ潜在表現を適応的にクラスタ化する。
我々は、逆空間表現と真のクラスタ分布の間の距離を最小化するために、潜空間表現を制限する新しいモデルを逆向きに訓練する。
論文 参考訳(メタデータ) (2021-04-05T21:07:04Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。