Fugu-MT 論文翻訳(概要): TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial Robustness and Generalization Ability

論文の概要: TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial Robustness and Generalization Ability

arxiv url: http://arxiv.org/abs/2405.17678v1
Date: Mon, 27 May 2024 22:10:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 23:01:26.833699
Title: TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial Robustness and Generalization Ability
Title（参考訳）: TIMA: ゼロショット対向ロバスト性と一般化能力のバランスをとるためのテキスト画像相互認識
Authors: Fengji Ma, Li Liu, Hei Victor Cheng,
Abstract要約: この研究は、大規模基礎モデルにおけるゼロショット一般化を保ちながら、ゼロショット対逆ロバスト性を達成するという課題に対処する。本稿では,ゼロショット対向性と一般化のバランスをとるテキスト・イメージ相互認識(TIMA)手法を提案する。
参考スコア（独自算出の注目度）: 8.896239176376488
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work addresses the challenge of achieving zero-shot adversarial robustness while preserving zero-shot generalization in large-scale foundation models, with a focus on the popular Contrastive Language-Image Pre-training (CLIP). Although foundation models were reported to have exceptional zero-shot generalization, they are highly vulnerable to adversarial perturbations. Existing methods achieve a comparable good tradeoff between zero-shot adversarial robustness and generalization under small adversarial perturbations. However, they fail to achieve a good tradeoff under large adversarial perturbations. To this end, we propose a novel Text-Image Mutual Awareness (TIMA) method that strikes a balance between zero-shot adversarial robustness and generalization. More precisely, we propose an Image-Aware Text (IAT) tuning mechanism that increases the inter-class distance of text embeddings by incorporating the Minimum Hyperspherical Energy (MHE). Simultaneously, fixed pre-trained image embeddings are used as cross-modal auxiliary supervision to maintain the similarity between the MHE-tuned and original text embeddings by the knowledge distillation, preserving semantic information between different classes. Besides, we introduce a Text-Aware Image (TAI) tuning mechanism, which increases inter-class distance between image embeddings during the training stage by Text-distance based Adaptive Margin (TAM). Similarly, a knowledge distillation is utilized to retain the similarity between fine-tuned and pre-trained image embeddings. Extensive experimental results demonstrate the effectiveness of our approach, showing impressive zero-shot performance against a wide range of adversarial perturbations while preserving the zero-shot generalization capabilities of the original CLIP model.
Abstract（参考訳）: 本研究は,大規模基盤モデルにおけるゼロショット一般化を保ちながら,ゼロショット対逆ロバスト性を達成するという課題に対処し,一般的なコントラスト言語-画像事前学習(CLIP)に注目した。基礎モデルは例外的なゼロショット一般化が報告されているが、敵の摂動に対して非常に脆弱である。既存の手法は、零ショット対向ロバスト性と小さな対向摂動下での一般化との間には、同等に良いトレードオフを達成している。しかし、大きな敵の摂動の下では良いトレードオフを達成できなかった。そこで本研究では,ゼロショット対向ロバストネスと一般化のバランスをとるテキスト画像相互認識(TIMA)手法を提案する。より正確には、最小超球面エネルギー(MHE)を組み込むことで、テキスト埋め込みのクラス間距離を増大させる画像認識テキスト(IAT)チューニング機構を提案する。同時に、固定された事前訓練された画像埋め込みは、知識蒸留によるMHEとオリジナルテキスト埋め込みの類似性を維持するために、異なるクラス間の意味情報を保存するために、クロスモーダル補助監督として使用される。さらに,テキスト依存型適応マージン(TAM)によるトレーニング段階における画像埋め込み間のクラス間距離を増加させるテキスト認識画像(TAI)チューニング機構を導入する。同様に、知識蒸留を用いて、微調整された画像と事前訓練された画像の埋め込みの類似性を維持する。従来のCLIPモデルのゼロショット一般化能力を保ちながら,幅広い逆方向の摂動に対して印象的なゼロショット性能を示した。

関連論文リスト

Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。 Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文参考訳（メタデータ） (2025-04-24T03:17:57Z)
Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。 1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-07T07:49:31Z)
Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models [32.23201683108716]
本稿では,攻撃に画像パッチを専ら使用し,オリジナルテキストの完全性を維持する新しい戦略を提案する。本手法は,拡散モデルからの事前知識を活用し,摂動の真性や自然性を高める。画像・テキスト・シナリオのホワイトボックス・セッティングで実施した総合実験により,提案手法は既存の手法を著しく上回り,100%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2024-10-07T10:06:01Z)
Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。 PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-27T07:14:14Z)
Saliency Attention and Semantic Similarity-Driven Adversarial Perturbation [0.0]
SASSP(Saliency Attention and Semantic similarity driven adversarial Perturbation)は、文脈的摂動の有効性を改善するために設計された。提案手法は,単語選択と摂動のための3段階の戦略を取り入れたものである。 SASSPは高い攻撃成功率と低い単語摂動率を得た。
論文参考訳（メタデータ） (2024-06-18T14:07:27Z)
Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-21T18:28:43Z)
Towards Robust Image Stitching: An Adaptive Resistance Learning against Compatible Attacks [66.98297584796391]
画像縫合は、様々な視点から捉えた画像をシームレスに単一の視野画像に統合する。一対の撮像画像が与えられたとき、人間の視覚システムに気づかない微妙な摂動と歪みは、対応の一致を攻撃しがちである。本稿では,敵対的攻撃に対する画像縫合の堅牢性向上に向けた最初の試みについて述べる。
論文参考訳（メタデータ） (2024-02-25T02:36:33Z)
Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2023-08-20T16:27:17Z)
PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-08-08T01:55:44Z)
Understanding Zero-Shot Adversarial Robustness for Large-Scale Models [31.295249927085475]
ゼロショット対角ロバスト性に対する大規模モデルの強調問題を特定し,検討する。本研究では,テキスト埋め込みと対向的視覚特徴を対照学習と整合させるテキスト誘導型対向的学習損失を提案する。当社のアプローチは,ImageNetと15のゼロショットデータセットに対して,平均31ポイント以上の改善を達成し,CLIPに対するゼロショット対逆ロバスト性を大幅に向上させる。
論文参考訳（メタデータ） (2022-12-14T04:08:56Z)
Robust Single Image Dehazing Based on Consistent and Contrast-Assisted Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。我々の手法は最先端のアプローチを大きく上回っている。
論文参考訳（メタデータ） (2022-03-29T08:11:04Z)
Adaptive Clustering of Robust Semantic Representations for Adversarial Image Purification [0.9203366434753543]
我々は、モデルに依存しず、目に見えない敵に対して汎用可能な、敵対攻撃に対する堅牢な防御を提案します。本稿では,各クラスの潜在表現を抽出し,意味的類似性を持つ潜在表現を適応的にクラスタ化する。我々は、逆空間表現と真のクラスタ分布の間の距離を最小化するために、潜空間表現を制限する新しいモデルを逆向きに訓練する。
論文参考訳（メタデータ） (2021-04-05T21:07:04Z)
Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文参考訳（メタデータ） (2020-07-29T08:38:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。