論文の概要: Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment
- arxiv url: http://arxiv.org/abs/2505.21494v1
- Date: Tue, 27 May 2025 17:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.852427
- Title: Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment
- Title(参考訳): 特徴最適アライメントによる閉鎖音源MLLMに対する逆攻撃
- Authors: Xiaojun Jia, Sensen Gao, Simeng Qin, Tianyu Pang, Chao Du, Yihao Huang, Xinfeng Li, Yiming Li, Bo Li, Yang Liu,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、移動可能な敵攻撃に対して脆弱である。
本稿では,特徴量の最適アライメントに基づく移動可能な対向攻撃手法を提案する。
実験は,提案手法の優位性を実証し,最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 35.77916460821855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) remain vulnerable to transferable adversarial examples. While existing methods typically achieve targeted attacks by aligning global features-such as CLIP's [CLS] token-between adversarial and target samples, they often overlook the rich local information encoded in patch tokens. This leads to suboptimal alignment and limited transferability, particularly for closed-source models. To address this limitation, we propose a targeted transferable adversarial attack method based on feature optimal alignment, called FOA-Attack, to improve adversarial transfer capability. Specifically, at the global level, we introduce a global feature loss based on cosine similarity to align the coarse-grained features of adversarial samples with those of target samples. At the local level, given the rich local representations within Transformers, we leverage clustering techniques to extract compact local patterns to alleviate redundant local features. We then formulate local feature alignment between adversarial and target samples as an optimal transport (OT) problem and propose a local clustering optimal transport loss to refine fine-grained feature alignment. Additionally, we propose a dynamic ensemble model weighting strategy to adaptively balance the influence of multiple models during adversarial example generation, thereby further improving transferability. Extensive experiments across various models demonstrate the superiority of the proposed method, outperforming state-of-the-art methods, especially in transferring to closed-source MLLMs. The code is released at https://github.com/jiaxiaojunQAQ/FOA-Attack.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) は、移動可能な敵の例に対して脆弱なままである。
既存のメソッドは通常、CLIPの[CLS]トークンとターゲットサンプルの間のグローバルな機能を調整することでターゲットアタックを実現するが、パッチトークンにエンコードされたリッチなローカル情報を見落としてしまうことが多い。
これは、特にクローズドソースモデルにおいて、最適以下のアライメントと限られた転送可能性をもたらす。
この制限に対処するために,FOA-Attackと呼ばれる特徴最適アライメントに基づく移動可能な対向攻撃手法を提案する。
具体的には,グローバルレベルでは,コサイン類似性に基づくグローバルな特徴損失を導入し,敵試料の粗粒度と対象試料の粗粒度の特徴を一致させる。
ローカルレベルでは、Transformer内のリッチなローカル表現を考慮し、クラスタリング手法を利用して、冗長なローカル特徴を緩和するためのコンパクトなローカルパターンを抽出する。
次に, 最適輸送(OT)問題として, 対向試料と対象試料の局所的特徴アライメントを定式化し, 微細な特徴アライメントを洗練させるために, 局所的クラスタリング最適輸送損失を提案する。
さらに,動的アンサンブルモデル重み付け手法を提案する。
各種モデルにまたがる広範囲な実験により, 提案手法の優位性, 特にクローズドソースMLLMへの転送において, 最先端の手法よりも優れることを示した。
コードはhttps://github.com/jiaxiaojunQAQ/FOA-Attack.comで公開されている。
関連論文リスト
- X-Transfer Attacks: Towards Super Transferable Adversarial Attacks on CLIP [32.85582585781569]
我々は,CLIPの普遍的敵対的脆弱性を明らかにする新しい攻撃方法である textbfX-Transfer を紹介する。
X-Transferは、様々なサンプル、タスク、ドメインにまたがる様々なCLIPエンコーダと下流のVLMを認識できるUniversal Adversarial Perturbationを生成する。
論文 参考訳(メタデータ) (2025-05-08T11:59:13Z) - Unbiased Max-Min Embedding Classification for Transductive Few-Shot Learning: Clustering and Classification Are All You Need [83.10178754323955]
わずかなショットラーニングにより、モデルがいくつかのラベル付き例から一般化できる。
本稿では,Unbiased Max-Min Embedding Classification (UMMEC)法を提案する。
本手法は最小ラベル付きデータを用いて分類性能を著しく向上させ, 注釈付きLの最先端化を推し進める。
論文 参考訳(メタデータ) (2025-03-28T07:23:07Z) - GeneralizeFormer: Layer-Adaptive Model Generation across Test-Time Distribution Shifts [58.95913531746308]
テスト時間領域の一般化の問題は、モデルが複数のソースドメインで訓練され、トレーニング中に見たことのないターゲットドメインで調整される場合である。
textitGeneralizeFormer と呼ばれる軽量メタ学習変換器を用いて,推論中に複数の層パラメータを生成することを提案する。
論文 参考訳(メタデータ) (2025-02-15T10:10:49Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Improving Model Robustness with Latent Distribution Locally and Globally [28.99007833855102]
本研究では,大域的多様体の観点からの敵攻撃に対するディープニューラルネットワークのモデルロバスト性について考察する。
本稿では,ロバストな最適化による新しい対角訓練法と,潜在マニフォールド適応例(LMAE)を生成するための抽出可能な方法を提案する。
The proposed adversarial training with latent Distribution (ATLD) method defends against adversarial attack by crafting LMAEs with the latent manifold in unsupervised manner。
論文 参考訳(メタデータ) (2021-07-08T07:52:53Z) - On Generating Transferable Targeted Perturbations [102.3506210331038]
伝達性の高い標的摂動に対する新しい生成的アプローチを提案する。
私たちのアプローチは、ターゲットクラスの「乱れた画像分布」にマッチし、高いターゲット転送率につながります。
論文 参考訳(メタデータ) (2021-03-26T17:55:28Z) - Contradictory Structure Learning for Semi-supervised Domain Adaptation [67.89665267469053]
現在の逆順応法は、クロスドメインの特徴を整列させようとする。
1)条件分布ミスマッチ、2)決定境界のソース領域へのバイアス。
本稿では,対向構造の学習を統一することで,半教師付きドメイン適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-06T22:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。