論文の概要: Make Anything Match Your Target: Universal Adversarial Perturbations against Closed-Source MLLMs via Multi-Crop Routed Meta Optimization
- arxiv url: http://arxiv.org/abs/2601.23179v1
- Date: Fri, 30 Jan 2026 17:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.576904
- Title: Make Anything Match Your Target: Universal Adversarial Perturbations against Closed-Source MLLMs via Multi-Crop Routed Meta Optimization
- Title(参考訳): ターゲットにマッチさせる:マルチクロップ・ルートド・メタ最適化によるクローズドソースMLLMに対するユニバーサル・アドバイサル・パーバベーション
- Authors: Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Xueyi Ke, Qixing Zhang, Bingquan Shen, Alex Kot, Xudong Jiang,
- Abstract要約: 我々は、より厳密な設定であるユニバーサル・ターゲティング・トランスファラブル・アタック(UTTAA)について研究する。
単一の摂動は、未知の商用MLLMをまたいで、指定されたターゲットに対する任意の入力を常に制御しなければならない。
本稿では,M CRMO-Attackを提案する。
- 参考スコア(独自算出の注目度): 49.30177419529011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Targeted adversarial attacks on closed-source multimodal large language models (MLLMs) have been increasingly explored under black-box transfer, yet prior methods are predominantly sample-specific and offer limited reusability across inputs. We instead study a more stringent setting, Universal Targeted Transferable Adversarial Attacks (UTTAA), where a single perturbation must consistently steer arbitrary inputs toward a specified target across unknown commercial MLLMs. Naively adapting existing sample-wise attacks to this universal setting faces three core difficulties: (i) target supervision becomes high-variance due to target-crop randomness, (ii) token-wise matching is unreliable because universality suppresses image-specific cues that would otherwise anchor alignment, and (iii) few-source per-target adaptation is highly initialization-sensitive, which can degrade the attainable performance. In this work, we propose MCRMO-Attack, which stabilizes supervision via Multi-Crop Aggregation with an Attention-Guided Crop, improves token-level reliability through alignability-gated Token Routing, and meta-learns a cross-target perturbation prior that yields stronger per-target solutions. Across commercial MLLMs, we boost unseen-image attack success rate by +23.7\% on GPT-4o and +19.9\% on Gemini-2.0 over the strongest universal baseline.
- Abstract(参考訳): ブラックボックス転送(英語版)の下では、閉鎖的オープンソースマルチモーダル言語モデル(MLLM)に対するターゲット的敵攻撃がますます検討されているが、以前の手法は主にサンプル固有であり、入力間での再利用性に制限がある。
代わりに、より厳密な設定である、Universal Targeted Transferable Adversarial Attacks (UTTAA) を研究する。
既存のサンプル・ワイズ・アタックをこのユニバーサル・セッティングに適用することは3つの困難に直面している。
(i)ターゲットの監視は、ターゲット・クロップのランダム性による高分散となる。
(ii)トークンワイドマッチングは信頼できない、なぜなら普遍性は、そうでなければアライメントをアンカーするイメージ固有の手がかりを抑圧し、
(iii)ターゲットごとの少ない適応は、高い初期化に敏感であり、達成可能な性能を低下させることができる。
本研究では,MCRMO-Attackを提案する。MCRMO-Attackは,マルチクロップ・アグリゲーション(Multi-Crop Aggregation with an Attention-Guided Crop)による監視を安定化し,整合性付きトークン・レベルの信頼性を向上させる。
商用MLLM全体では、GPT-4oで+23.7\%、Gemini-2.0で+19.9\%、最強のユニバーサルベースラインで+23.9\%の未確認攻撃成功率を向上する。
関連論文リスト
- Whatever Remains Must Be True: Filtering Drives Reasoning in LLMs, Shaping Diversity [13.211627219720796]
強化学習(Reinforcement Learning, RL)は、推論に関わる課題を解決するためにLLMをチューニングするためのデファクトスタンダードとなっている。
我々は、RLが暗黙的に「モード探索」あるいは「ゼロ強制」逆KLを目標分布に最適化し、モデルがターゲットの特定の高確率領域に質量を集中させることを論じる。
そこで本研究では,まず,正解の相対確率を無視しながら,不正確な解をフィルタリングして得られる明示的対象分布から始める。
論文 参考訳(メタデータ) (2025-12-05T18:56:40Z) - MTAttack: Multi-Target Backdoor Attacks against Large Vision-Language Models [52.37749859972453]
我々は,LVLMにおける複数のトリガターゲットマッピングを正確に行うための,最初のマルチターゲットバックドアアタックフレームワークであるMTAttackを提案する。
人気のあるベンチマークの実験では、マルチターゲット攻撃に対するMTAttackの成功率が高いことが示されている。
我々の攻撃は、データセット間での強力な一般化性と、バックドア防衛戦略に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-13T09:00:21Z) - Enhancing Targeted Adversarial Attacks on Large Vision-Language Models via Intermediate Projector [24.390527651215944]
ブラックボックスの敵攻撃は特に大型ビジョンランゲージモデル(VLM)に深刻な脅威をもたらす
本稿では,プロジェクタを利用した新たなブラックボックスターゲットアタックフレームワークを提案する。
具体的には、グローバルな画像埋め込みをきめ細かなクエリ出力に変換する、広く採用されているクエリ変換器(Q-Former)を利用する。
論文 参考訳(メタデータ) (2025-08-19T11:23:09Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1 [43.32593407341789]
オープンソースの大規模ビジョン言語モデルで有望なパフォーマンスにもかかわらず、トランスファーベースのターゲットアタックは、クローズドソースの商用LVLMに対して失敗することが多い。
本稿では,局所領域内の意味的詳細を明示的に符号化することで,意味的明瞭度を高めることを提案する。
提案手法は, GPT-4.5, 4o, o1において90%以上の成功率を達成し, 従来の攻撃方法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-13T17:59:55Z) - Pick of the Bunch: Detecting Infrared Small Targets Beyond Hit-Miss Trade-Offs via Selective Rank-Aware Attention [22.580497586948198]
複雑な背景乱れの中で、赤外線小目標検出は、ディムターゲットを正確に位置決めする固有の課題に直面している。
本稿では,従来のヒットミストレードオフを超えて高精度なネットワークであるSeRankDetを提案する。
論文 参考訳(メタデータ) (2024-08-07T12:10:32Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Logit Margin Matters: Improving Transferable Targeted Adversarial Attack
by Logit Calibration [85.71545080119026]
クロスエントロピー(CE)損失関数は、伝達可能な標的対向例を学習するには不十分である。
本稿では,ロジットを温度係数と適応マージンでダウンスケールすることで,ロジットのキャリブレーションを簡易かつ効果的に行う2つの手法を提案する。
ImageNetデータセットを用いて実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-03-07T06:42:52Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。