論文の概要: Laundering AI Authority with Adversarial Examples
- arxiv url: http://arxiv.org/abs/2605.04261v1
- Date: Tue, 05 May 2026 19:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.525995
- Title: Laundering AI Authority with Adversarial Examples
- Title(参考訳): 逆の例でAI機関を洗浄する
- Authors: Jie Zhang, Pura Peetathawatchai, Florian Tramèr, Avital Shafran,
- Abstract要約: ヴィジュアル言語モデル(VLM)は、ますます信頼できる当局としてデプロイされている。
我々は、敵の例がこの仮定を破り、EmphAIの権威洗浄を可能にしたことを示す。
私たちの攻撃はモデルアライメントを損なうものではない。
- 参考スコア(独自算出の注目度): 32.761654180537434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are increasingly deployed as trusted authorities -- fact-checking images on social media, comparing products, and moderating content. Users implicitly trust that these systems perceive the same visual content as they do. We show that adversarial examples break this assumption, enabling \emph{AI authority laundering}: an attacker subtly perturbs an image so that the VLM produces confident and authoritative responses about the \emph{wrong} input. Unlike jailbreaks or prompt injections, our attacks do not compromise model alignment; the attack operates entirely at the perceptual level. We demonstrate that standard attacks against publicly available CLIP models transfer reliably to production VLMs -- including GPT-5.4, Claude Opus~4.6, Gemini~3, and Grok~4.2. Across four attack surfaces, we show that authority laundering can amplify misinformation, disparage individuals, evade content moderation, and manipulate product recommendations. Our attacks have high success rates: In hundreds of attacks targeting identity manipulation and NSFW evasion, we measure success rates of $22 - 100\%$ across six models. No novel attack algorithm is required: basic techniques known for over a decade suffice, establishing a lower bound on attacker capability that should concern defenders. Our results demonstrate that visual adversarial robustness is now a practical -- and still largely unsolved -- safety problem.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は、ソーシャルメディア上でのファクトチェック、製品の比較、コンテンツのモデレーションなど、信頼できる当局としてますます多くデプロイされている。
ユーザーはこれらのシステムが自分と同じ視覚的コンテンツを認識していることを暗黙的に信じている。
攻撃者はイメージを微妙に摂動させ、VLMは \emph{wrong} 入力に対して自信的で権威的な応答を発生させる。
ジェイルブレイクやプロンプトインジェクションとは異なり、我々の攻撃はモデルアライメントを損なうことはない。
GPT-5.4、Claude Opus~4.6、Gemini~3、Grok~4.2など、公開可能なCLIPモデルに対する標準的な攻撃が、プロダクションVLMに確実に転送されることを示す。
4つの攻撃面にまたがって,不正情報の増幅,個人分離,コンテンツモデレーションの回避,製品レコメンデーションの操作が可能であることを示す。
アイデンティティ操作とNSFW回避を狙った何百もの攻撃では、6つのモデルで22~100\%の成功率を測定します。
新たな攻撃アルゴリズムは必要とされない。10年以上にわたって知られていた基本的なテクニックは、攻撃能力の低い境界を確立し、防御者を心配するべきである。
我々の結果は、現在、視覚的敵意の堅牢性は、実用的で、まだほとんど未解決の、安全問題であることを示している。
関連論文リスト
- Making MLLMs Blind: Adversarial Smuggling Attacks in MLLM Content Moderation [54.38271718421492]
敵の密輸攻撃は人間とAIの能力ギャップを悪用する。
有害なコンテンツを人間の読みやすい視覚形式にエンコードする。
我々は緩和戦略の予備的な調査を行う。
論文 参考訳(メタデータ) (2026-04-08T11:13:16Z) - Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - Effective Black-Box Multi-Faceted Attacks Breach Vision Large Language Model Guardrails [32.627286570942445]
MultiFaceted Attackは、視覚大言語モデルにおける多層防御をバイパスするために設計されたアタックフレームワークである。
VLLMのマルチモーダルな性質を利用して、画像を通して有害なシステムプロンプトを注入する。
攻撃率は61.56%で、最先端の手法を少なくとも42.18%上回っている。
論文 参考訳(メタデータ) (2025-02-09T04:21:27Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。