論文の概要: A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
- arxiv url: http://arxiv.org/abs/2503.10635v1
- Date: Thu, 13 Mar 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:55:09.331340
- Title: A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1
- Title(参考訳): GPT-4.5/4o/o1の強いブラックボックスモデルに対する90%以上の成功率
- Authors: Zhaoyi Li, Xiaohan Zhao, Dong-Dong Wu, Jiacheng Cui, Zhiqiang Shen,
- Abstract要約: トランスファーベースの大規模視覚言語モデル(LVLM)に対する標的攻撃は、しばしばブラックボックスの商用LVLMに対して失敗する。
本研究では,局所領域内の意味的詳細を明示的に符号化することで,意味的明瞭度を向上する手法を提案する。
提案手法は, GPT-4.5, 4o, o1において90%以上の成功率を達成し, 従来の攻撃方法よりも優れていた。
- 参考スコア(独自算出の注目度): 24.599707290204524
- License:
- Abstract: Despite promising performance on open-source large vision-language models (LVLMs), transfer-based targeted attacks often fail against black-box commercial LVLMs. Analyzing failed adversarial perturbations reveals that the learned perturbations typically originate from a uniform distribution and lack clear semantic details, resulting in unintended responses. This critical absence of semantic information leads commercial LVLMs to either ignore the perturbation entirely or misinterpret its embedded semantics, thereby causing the attack to fail. To overcome these issues, we notice that identifying core semantic objects is a key objective for models trained with various datasets and methodologies. This insight motivates our approach that refines semantic clarity by encoding explicit semantic details within local regions, thus ensuring interoperability and capturing finer-grained features, and by concentrating modifications on semantically rich areas rather than applying them uniformly. To achieve this, we propose a simple yet highly effective solution: at each optimization step, the adversarial image is cropped randomly by a controlled aspect ratio and scale, resized, and then aligned with the target image in the embedding space. Experimental results confirm our hypothesis. Our adversarial examples crafted with local-aggregated perturbations focused on crucial regions exhibit surprisingly good transferability to commercial LVLMs, including GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, and even reasoning models like o1, Claude-3.7-thinking and Gemini-2.0-flash-thinking. Our approach achieves success rates exceeding 90% on GPT-4.5, 4o, and o1, significantly outperforming all prior state-of-the-art attack methods. Our optimized adversarial examples under different configurations and training code are available at https://github.com/VILA-Lab/M-Attack.
- Abstract(参考訳): オープンソースの大規模視覚言語モデル(LVLM)の性能は高いが、トランスファーベースのターゲットアタックはブラックボックスの商用LVLMに対して失敗することが多い。
逆境の摂動を解析した結果、学習された摂動は典型的に一様分布から発生し、明確な意味的詳細が欠如していることが判明し、意図しない応答をもたらす。
この意味情報の欠如により、商用のLVLMは摂動を完全に無視するか、その組み込みセマンティクスを誤解し、攻撃が失敗する。
これらの問題を克服するために、様々なデータセットや方法論で訓練されたモデルにおいて、コアセマンティックオブジェクトの識別が重要な目的であることに気付く。
この洞察は、局所領域内で明示的な意味的詳細を符号化し、相互運用性を確保し、よりきめ細かい特徴を捉えることによって意味的明瞭さを洗練し、それらを一様に適用するのではなく、意味的に豊かな領域に修正を集中させることによって、我々のアプローチを動機付けている。
これを実現するために,各最適化ステップにおいて,逆画像を制御されたアスペクト比とスケールでランダムにトリミングし,再サイズし,次に埋め込み空間のターゲット画像と整列させるという,シンプルかつ高効率な解を提案する。
実験結果は我々の仮説を裏付ける。
GPT-4.5, GPT-4o, Gemini-2.0-flash, Claude-3.5-sonnet, Claude-3.7-sonnet, さらには o1, Claude-3.7-thinking, Gemini-2.0-flash-thinking など,重要な領域に焦点を絞った局所集束摂動を用いた敵の例は, 商業用LVLMへの驚くほど優れた転送性を示している。
提案手法は, GPT-4.5, 4o, o1において90%以上の成功率を達成し, 従来の攻撃方法よりも優れていた。
異なる設定とトレーニングコードの下で最適化された敵の例は、https://github.com/VILA-Lab/M-Attack.comで公開されています。
関連論文リスト
- Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - AnyAttack: Targeted Adversarial Attacks on Vision-Language Models toward Any Images [41.044385916368455]
我々は、ラベル管理なしでビジョンランゲージモデルに対してターゲットとなる敵画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
我々のフレームワークは、大規模LAION-400Mデータセットで事前学習された逆雑音発生器を用いて、事前学習と微調整のパラダイムを採用している。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Semantic Adversarial Attacks via Diffusion Models [30.169827029761702]
セマンティック敵攻撃は、色、コンテキスト、特徴などのクリーンな例のセマンティック属性の変更に焦点を当てる。
本稿では,近年の拡散モデルを利用して,セマンティック・アタックを迅速に生成するフレームワークを提案する。
提案手法は,FIDが36.61である複数環境での攻撃成功率を約100%達成する。
論文 参考訳(メタデータ) (2023-09-14T02:57:48Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - Mixed Precision Quantization to Tackle Gradient Leakage Attacks in
Federated Learning [1.7205106391379026]
フェデレートラーニング(FL)は、明示的なデータ共有を必要とせずに、多数の参加者の間で協調的なモデル構築を可能にする。
このアプローチは、プライバシ推論攻撃を適用した際の脆弱性を示す。
特に、モデル勾配からセンシティブなデータを取得する上で高い成功率を持つ勾配リーク攻撃の場合、FLモデルは、その固有のアーキテクチャにおける通信の存在により、高いリスクを負う。
論文 参考訳(メタデータ) (2022-10-22T04:24:32Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。