論文の概要: Zero-Shot Robustness of Vision Language Models Via Confidence-Aware Weighting
- arxiv url: http://arxiv.org/abs/2510.02913v1
- Date: Fri, 03 Oct 2025 11:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.36536
- Title: Zero-Shot Robustness of Vision Language Models Via Confidence-Aware Weighting
- Title(参考訳): 信頼度を考慮した重み付けによる視覚言語モデルのゼロショットロバスト性
- Authors: Nikoo Naghavian, Mostafa Tavassolipour,
- Abstract要約: 視覚言語モデルにおけるゼロショットロバスト性を高めるために,信頼性を考慮した重み付け(CAW)を提案する。
CAWは,(1)不確実な敵の事例を優先する信頼と認識の喪失と,(2)意味的整合性を維持する特徴的アラインメント正規化の2つの構成要素から構成される。
- 参考スコア(独自算出の注目度): 1.5268922363885407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models like CLIP demonstrate impressive zero-shot generalization but remain highly vulnerable to adversarial attacks. In this work, we propose Confidence-Aware Weighting (CAW) to enhance zero-shot robustness in vision-language models. CAW consists of two components: (1) a Confidence-Aware loss that prioritizes uncertain adversarial examples by scaling the KL divergence between clean and adversarial predictions, and (2) a feature alignment regularization that preserves semantic consistency by minimizing the distance between frozen and fine-tuned image encoder features on adversarial inputs. These components work jointly to improve both clean and robust accuracy without sacrificing generalization. Extensive experiments on TinyImageNet and 14 additional datasets show that CAW outperforms recent methods such as PMG-AFT and TGA-ZSR under strong attacks like AutoAttack, while using less memory.
- Abstract(参考訳): CLIPのようなビジョン言語モデルは、印象的なゼロショットの一般化を示すが、敵の攻撃に対して非常に脆弱である。
本研究では、視覚言語モデルにおけるゼロショットロバスト性を高めるために、信頼性認識重み付け(CAW)を提案する。
CAWは,(1)正反対の予測と正反対の予測の間にKLのばらつきを拡大することにより,不確実な敵の例を優先する信頼認識損失と,(2)敵の入力に対して,凍結された画像エンコーダと微調整画像エンコーダの距離を最小化して意味的整合性を維持する特徴アライメント正規化の2つの構成要素から構成される。
これらのコンポーネントは、一般化を犠牲にすることなく、クリーンかつロバストな精度を改善するために共同で動作する。
TinyImageNetと14のデータセットの大規模な実験により、CAWは、AutoAttackのような強力な攻撃の下で、PMG-AFTやTGA-ZSRといった最近の手法よりも、メモリが少なくなった。
関連論文リスト
- CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP [54.660471826755234]
分類損失を最大化しようとする悪意のある摂動が、誤った画像に繋がることを示す。
本稿では,CLIPの事前学習したビジョンエンコーダを用いて,推論中の敵画像に対する攻撃を行い,ロバスト性を実現することを提案する。
私たちのパラダイムはシンプルで、トレーニング不要で、テスト時にCLIPを敵攻撃から防御する最初の方法を提供します。
論文 参考訳(メタデータ) (2025-03-05T15:51:59Z) - Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。
既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。
本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文 参考訳(メタデータ) (2025-02-03T17:59:45Z) - Confidence-aware Denoised Fine-tuning of Off-the-shelf Models for Certified Robustness [56.2479170374811]
我々はFT-CADIS(Fun Fine-Tuning with Confidence-Aware Denoized Image Selection)を紹介する。
FT-CADISは、既成の分類器の信頼性が、視覚的平滑化中の幻覚像を効果的に識別できるという観察に着想を得たものである。
様々なベンチマークにおいて、すべての$ell$-adversary半径にわたる偏微分平滑化法のうち、最先端の証明されたロバスト性を確立している。
論文 参考訳(メタデータ) (2024-11-13T09:13:20Z) - Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models [64.67721492968941]
ゼロショットロバストネス(TGA-ZSR)のためのテキストガイド型アテンションを提案する。
我々のゴールは、CLIPモデルの一般化を維持し、敵の堅牢性を高めることである。
本手法は,現在の最先端技術よりも9.58%の精度でゼロショット精度を向上する。
論文 参考訳(メタデータ) (2024-10-29T07:15:09Z) - TIMA: Text-Image Mutual Awareness for Balancing Zero-Shot Adversarial Robustness and Generalization Ability [8.896239176376488]
この研究は、大規模基礎モデルにおけるゼロショット一般化を保ちながら、ゼロショット対逆ロバスト性を達成するという課題に対処する。
本稿では,ゼロショット対向性と一般化のバランスをとるテキスト・イメージ相互認識(TIMA)手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T22:10:17Z) - FACTUAL: A Novel Framework for Contrastive Learning Based Robust SAR Image Classification [10.911464455072391]
FACTUALは、逆行訓練と堅牢なSAR分類のためのコントラストラーニングフレームワークである。
本モデルでは, 洗浄試料の99.7%, 摂動試料の89.6%の精度が得られた。
論文 参考訳(メタデータ) (2024-04-04T06:20:22Z) - Understanding Zero-Shot Adversarial Robustness for Large-Scale Models [31.295249927085475]
ゼロショット対角ロバスト性に対する大規模モデルの強調問題を特定し,検討する。
本研究では,テキスト埋め込みと対向的視覚特徴を対照学習と整合させるテキスト誘導型対向的学習損失を提案する。
当社のアプローチは,ImageNetと15のゼロショットデータセットに対して,平均31ポイント以上の改善を達成し,CLIPに対するゼロショット対逆ロバスト性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-12-14T04:08:56Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。