論文の概要: Understanding Adversarial Transfer: Why Representation-Space Attacks Fail Where Data-Space Attacks Succeed
- arxiv url: http://arxiv.org/abs/2510.01494v1
- Date: Wed, 01 Oct 2025 22:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.889733
- Title: Understanding Adversarial Transfer: Why Representation-Space Attacks Fail Where Data-Space Attacks Succeed
- Title(参考訳): 逆転の理解:なぜ表現空間攻撃はデータ空間攻撃が原因で失敗するのか
- Authors: Isha Gupta, Rylan Schaeffer, Joshua Kazdan, Ken Liu, Sanmi Koyejo,
- Abstract要約: 最近の研究では、視覚言語モデル間で画像ジェイルブレイクがうまく転送できないことが報告されている。
本稿では,機械学習モデルに対する攻撃の伝達可能性に関する根本的な違いを提案する。
我々の研究は、敵の移動は全ての攻撃の固有の性質ではなく、その運用領域に依存していることを明らかにする。
- 参考スコア(独自算出の注目度): 30.297755185091674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of adversarial robustness has long established that adversarial examples can successfully transfer between image classifiers and that text jailbreaks can successfully transfer between language models (LMs). However, a pair of recent studies reported being unable to successfully transfer image jailbreaks between vision-language models (VLMs). To explain this striking difference, we propose a fundamental distinction regarding the transferability of attacks against machine learning models: attacks in the input data-space can transfer, whereas attacks in model representation space do not, at least not without geometric alignment of representations. We then provide theoretical and empirical evidence of this hypothesis in four different settings. First, we mathematically prove this distinction in a simple setting where two networks compute the same input-output map but via different representations. Second, we construct representation-space attacks against image classifiers that are as successful as well-known data-space attacks, but fail to transfer. Third, we construct representation-space attacks against LMs that successfully jailbreak the attacked models but again fail to transfer. Fourth, we construct data-space attacks against VLMs that successfully transfer to new VLMs, and we show that representation space attacks \emph{can} transfer when VLMs' latent geometries are sufficiently aligned in post-projector space. Our work reveals that adversarial transfer is not an inherent property of all attacks but contingent on their operational domain - the shared data-space versus models' unique representation spaces - a critical insight for building more robust models.
- Abstract(参考訳): 敵対的堅牢性の分野は、敵対的な例が画像分類器間での転送に成功し、テキストジェイルブレイクが言語モデル(LM)間での転送に成功できることを長年確立してきた。
しかし、最近の2つの研究では、視覚言語モデル(VLM)間で画像ジェイルブレイクを転送できないことが報告されている。
入力データ空間における攻撃は転送可能であるが、モデル表現空間における攻撃は、少なくとも表現の幾何学的アライメントなしでは、転送できない。
次に、この仮説の理論的および実証的な証拠を4つの異なる設定で提示する。
まず,2つのネットワークが同一の入力出力マップを計算し,異なる表現で計算する簡単な設定で,この区別を数学的に証明する。
第2に、画像分類器に対する表現空間攻撃を構築し、よく知られたデータ空間攻撃と同様に成功したが、転送に失敗する。
第三に、攻撃されたモデルのジェイルブレイクに成功したLMに対する表現空間攻撃を構築するが、転送に失敗する。
第4に、新しいVLMへの転送に成功しているVLMに対するデータ空間攻撃を構築し、VLMの潜在測地が後プロジェクタ空間で十分に整列している場合、表現空間が \emph{can} 転送を攻撃していることを示す。
我々の研究によると、敵の移動は全ての攻撃の固有の性質ではなく、その運用領域(共有データ空間とモデルのユニークな表現空間)に依存しているということが、より堅牢なモデルを構築する上で重要な洞察である。
関連論文リスト
- Improving Large Language Model Safety with Contrastive Representation Learning [92.79965952162298]
大規模言語モデル(LLM)は、社会に深い影響を与える強力なツールである。
多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。
対照的な表現学習問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T16:42:09Z) - Cross-Model Transferability of Adversarial Patches in Real-time Segmentation for Autonomous Driving [0.2120527246868857]
アドリラル攻撃はディープラーニングモデル、特に医療や自動運転といった安全クリティカルなアプリケーションに重大な脅威をもたらす。
近年、パッチベースの攻撃は、その「ドラッグアンドドロップ」の性質により、リアルタイムの推論シナリオにおいて有効であることが示されている。
本稿では,自律走行車に対してより現実的な,EOT(Prestantation Over Transformation)に基づく対向パッチ攻撃を提案する。
論文 参考訳(メタデータ) (2025-02-22T00:03:53Z) - Downstream Transfer Attack: Adversarial Attacks on Downstream Models with Pre-trained Vision Transformers [95.22517830759193]
本稿では、事前訓練されたViTモデルから下流タスクへのこのような逆の脆弱性の伝達可能性について検討する。
DTAは攻撃成功率(ASR)が90%を超え、既存の手法をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-08-03T08:07:03Z) - Your Attack Is Too DUMB: Formalizing Attacker Scenarios for Adversarial
Transferability [17.899587145780817]
侵入攻撃は機械学習モデルに対する脅威であり、敵は悪意のあるサンプルを注入することで分類に影響を与えようとする。
本研究では,サロゲートモデルと被害者モデルの訓練条件が異なる場合の回避攻撃が転送に失敗するかどうかを解析できるDUMB攻撃モデルを提案する。
14件の異なる攻撃に対して13Kの試験を行った結果,サロゲートモデルを用いた移動可能な攻撃範囲の新たな発見が得られた。
論文 参考訳(メタデータ) (2023-06-27T10:21:27Z) - Diffusion Models for Imperceptible and Transferable Adversarial Attack [23.991194050494396]
本稿では,拡散モデルの生成的および識別的パワーを両立させることにより,新たな非受容的かつ伝達可能な攻撃を提案する。
提案手法であるDiffAttackは,対向攻撃場に拡散モデルを導入する最初の方法である。
論文 参考訳(メタデータ) (2023-05-14T16:02:36Z) - Can Adversarial Examples Be Parsed to Reveal Victim Model Information? [62.814751479749695]
本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
論文 参考訳(メタデータ) (2023-03-13T21:21:49Z) - Transfer Attacks Revisited: A Large-Scale Empirical Study in Real
Computer Vision Settings [64.37621685052571]
我々は,主要なクラウドベースのMLプラットフォームに対する転送攻撃について,最初の系統的実証的研究を行った。
この研究は、既存のものと矛盾しない多くの興味深い発見につながっている。
この作業は、一般的なMLプラットフォームの脆弱性に光を当て、いくつかの有望な研究方向を指し示している、と私たちは信じています。
論文 参考訳(メタデータ) (2022-04-07T12:16:24Z) - Intriguing Properties of Adversarial ML Attacks in the Problem Space [Extended Version] [18.3238686304247]
問題空間における敵ML回避攻撃の一般化を提案する。
セマンティクスやアーティファクトの観点から過去の制限を克服する,Androidマルウェアに対する新たな問題空間攻撃を提案する。
我々の結果は、"サービスとしてのアドバイサル・マルウェア"が現実的な脅威であることを示している。
論文 参考訳(メタデータ) (2019-11-05T23:39:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。