論文の概要: Evolution-based Region Adversarial Prompt Learning for Robustness Enhancement in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.12874v2
- Date: Tue, 18 Mar 2025 02:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 10:31:40.484361
- Title: Evolution-based Region Adversarial Prompt Learning for Robustness Enhancement in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるロバスト性向上のための進化型領域逆数確率学習
- Authors: Xiaojun Jia, Sensen Gao, Simeng Qin, Ke Ma, Xinfeng Li, Yihao Huang, Wei Dong, Yang Liu, Xiaochun Cao,
- Abstract要約: 本稿では,ER-APTと呼ばれる進化型領域逆アプティブチューニング手法を提案する。
各トレーニングイテレーションでは、まず従来の勾配法を用いてAEを生成する。
次に、AEsを最適化するために、選択、突然変異、交差を含む遺伝的進化機構を適用する。
最終進化型AEは、従来の単点対向的な高速チューニングの代わりに、地域ベースの対向最適化を実現するために用いられる。
- 参考スコア(独自算出の注目度): 52.8949080772873
- License:
- Abstract: Large pre-trained vision-language models (VLMs), such as CLIP, demonstrate impressive generalization but remain highly vulnerable to adversarial examples (AEs). Previous work has explored robust text prompts through adversarial training, achieving some improvement in both robustness and generalization. However, they primarily rely on singlegradient direction perturbations (e.g., PGD) to generate AEs, which lack diversity, resulting in limited improvement in adversarial robustness. To address these limitations, we propose an evolution-based region adversarial prompt tuning method called ER-APT, which combines gradient methods with genetic evolution to generate more diverse and challenging AEs. In each training iteration, we first generate AEs using traditional gradient-based methods. Subsequently, a genetic evolution mechanism incorporating selection, mutation, and crossover is applied to optimize the AEs, ensuring a broader and more aggressive perturbation distribution.The final evolved AEs are used for prompt tuning, achieving region-based adversarial optimization instead of conventional single-point adversarial prompt tuning. We also propose a dynamic loss weighting method to adjust prompt learning efficiency for accuracy and robustness. Experimental evaluations on various benchmark datasets demonstrate the superiority of our proposed method, outperforming stateof-the-art APT methods. The code is released at https://github.com/jiaxiaojunQAQ/ER-APT.
- Abstract(参考訳): CLIPのような大規模な事前学習された視覚言語モデル(VLM)は、目覚ましい一般化を示すが、敵の例(AE)に対して非常に脆弱である。
従来の研究は、対人訓練を通じて頑健なテキストプロンプトを探求し、頑健さと一般化の両面でいくつかの改善を達成してきた。
しかし、それらは主に、多様性に欠けるAEを生成するために、単段階の方向摂動(PGDなど)に頼っているため、敵の強靭性は限定的に改善される。
これらの制約に対処するため, ER-APTと呼ばれる進化型領域対向的プロンプトチューニング手法を提案し, 勾配法と遺伝的進化を組み合わせ, より多様で困難なAEを生成する。
各トレーニングイテレーションでは、まず従来の勾配法を用いてAEを生成する。
その後、AEsを最適化し、より広くより攻撃的な摂動分布を確保するために、選択、突然変異、交叉を組み込んだ遺伝的進化機構が適用され、最終進化したAEsは、従来の単一点対向的なインパルスチューニングではなく、地域ベースの対向最適化を実現するために、迅速なチューニングに使用される。
また,高速学習効率を精度とロバスト性のために調整する動的損失重み付け手法を提案する。
各種ベンチマークデータセットを用いた実験により,提案手法の優位性,最先端のAPT法よりも優れた性能を示した。
コードはhttps://github.com/jiaxiaojunQAQ/ER-APTで公開されている。
関連論文リスト
- Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文 参考訳(メタデータ) (2024-11-04T23:07:51Z) - Enhancing Adversarial Transferability with Adversarial Weight Tuning [36.09966860069978]
敵対的な例(AE)は、人間の観察者に対して良心を抱きながらモデルを誤解させた。
AWTは、勾配に基づく攻撃法とモデルに基づく攻撃法を組み合わせて、AEの転送可能性を高めるデータフリーチューニング手法である。
論文 参考訳(メタデータ) (2024-08-18T13:31:26Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Exploiting the Layered Intrinsic Dimensionality of Deep Models for Practical Adversarial Training [31.495803865226158]
対人訓練(AT)は、2つの主要な理由から実践的なAIシステムに展開されることはめったにない。
ATはビジョンモデルにおける一般化の減少をもたらすが、エンコーダベースの言語モデルでは一般化は改善されるか変化しない。
SMAATは標準的なATに比べて25~33%のGPU時間しか必要とせず、全アプリケーションにおけるロバスト性は著しく向上している。
論文 参考訳(メタデータ) (2024-05-27T12:48:30Z) - SETA: Semantic-Aware Token Augmentation for Domain Generalization [27.301312891532277]
ドメイン一般化(DG)は、ターゲットドメインにアクセスすることなく、ドメインシフトに対するモデルを強化することを目的としている。
トークンベースのモデルに対する従来のCNNベースの拡張手法は、全体的な形状情報を学ぶためのモデルへのインセンティブが欠如しているため、亜最適である。
本研究では,グローバルな形状を保ちながら局所的なエッジキューを摂動することで特徴を変換するセマンティック・アウェア・トークン拡張(SETA)法を提案する。
論文 参考訳(メタデータ) (2024-03-18T13:50:35Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - PANDA: Adapting Pretrained Features for Anomaly Detection and
Segmentation [34.98371632913735]
本研究では,事前学習した特徴と単純な異常検出と分割法を組み合わせることで,最先端の手法を確実に上回ることを示す。
さらなる性能向上を得るために,事前学習した特徴を目標分布に適応させる。
論文 参考訳(メタデータ) (2020-10-12T17:52:50Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。