Fugu-MT 論文翻訳(概要): Image Hijacks: Adversarial Images can Control Generative Models at Runtime

論文の概要: Image Hijacks: Adversarial Images can Control Generative Models at Runtime

arxiv url: http://arxiv.org/abs/2309.00236v3
Date: Mon, 22 Apr 2024 20:18:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 20:04:56.890868
Title: Image Hijacks: Adversarial Images can Control Generative Models at Runtime
Title（参考訳）: 画像ハイジャック: 逆画像は実行時に生成モデルを制御することができる
Authors: Luke Bailey, Euan Ong, Stuart Russell, Scott Emmons,
Abstract要約: 推論時に視覚言語モデルの振る舞いを制御する画像ハイジャック, 逆画像を検出する。 Prompt Matching法を考案し、任意のユーザ定義テキストプロンプトの動作にマッチしたハイジャックをトレーニングする。我々は、Behaviour Matchingを使って、4種類の攻撃に対してハイジャックを作らせ、VLMは敵の選択の出力を生成し、コンテキストウィンドウから情報をリークし、安全トレーニングをオーバーライドし、偽の声明を信じるように強制する。
参考スコア（独自算出の注目度）: 8.603201325413192
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Are foundation models secure against malicious actors? In this work, we focus on the image input to a vision-language model (VLM). We discover image hijacks, adversarial images that control the behaviour of VLMs at inference time, and introduce the general Behaviour Matching algorithm for training image hijacks. From this, we derive the Prompt Matching method, allowing us to train hijacks matching the behaviour of an arbitrary user-defined text prompt (e.g. 'the Eiffel Tower is now located in Rome') using a generic, off-the-shelf dataset unrelated to our choice of prompt. We use Behaviour Matching to craft hijacks for four types of attack, forcing VLMs to generate outputs of the adversary's choice, leak information from their context window, override their safety training, and believe false statements. We study these attacks against LLaVA, a state-of-the-art VLM based on CLIP and LLaMA-2, and find that all attack types achieve a success rate of over 80%. Moreover, our attacks are automated and require only small image perturbations.
Abstract（参考訳）: ファンデーションモデルは悪意のあるアクターに対して安全か? 本研究では,視覚言語モデル(VLM)への画像入力に着目した。我々は、画像ハイジャックや、VLMの動作を推論時に制御する逆画像を発見し、画像ハイジャックを訓練するための一般的なビヘイビアマッチングアルゴリズムを導入する。これにより、任意のユーザ定義のテキストプロンプト(例えば、Eiffel Towerは現在ローマにある)の振る舞いにマッチしたハイジャックを、プロンプトの選択とは無関係な汎用的なオフザシェルフデータセットを使ってトレーニングすることができる。我々は、Behaviour Matchingを使って、4種類の攻撃に対してハイジャックを作らせ、VLMは敵の選択の出力を生成し、コンテキストウィンドウから情報をリークし、安全トレーニングをオーバーライドし、偽の声明を信じるように強制する。 CLIPとLLaMA-2をベースとした最先端のVLMであるLLaVAに対するこれらの攻撃について検討し、すべての攻撃タイプが80%以上の成功率を達成することを発見した。さらに、我々の攻撃は自動化されており、小さな画像摂動しか必要としない。

関連論文リスト

Adversarial Confusion Attack: Disrupting Multimodal Large Language Models [1.4037095606573826]
マルチモーダル大言語モデル(MLLM)に対する新たな脅威クラスであるAdversarial Confusion Attackを導入する。ジェイルブレイクやターゲットの誤分類とは異なり、目標は、モデルが不整合または確実な出力を生成するような、系統的な破壊を誘発することである。現実的な応用としては、MLLMを搭載したAIエージェントが確実に動作しないように、そのような敵対的なイメージをウェブサイトに埋め込むことがある。
論文参考訳（メタデータ） (2025-11-25T17:00:31Z)
VIP: Visual Information Protection through Adversarial Attacks on Vision-Language Models [15.158545794377169]
我々は,視覚言語モデルにおけるプライバシの保存を敵攻撃問題とみなす。画像中の関心領域内の情報を選択的に隠蔽する新たな攻撃戦略を提案する。 3つの最先端VLMに対する実験結果から、目標ROIの検出において最大98%の低下が見られた。
論文参考訳（メタデータ） (2025-07-11T19:34:01Z)
On the Feasibility of Poisoning Text-to-Image AI Models via Adversarial Mislabeling [24.730395152276927]
インターネットから得られる何百万もの画像に対してテキスト・画像生成モデルを訓練し、それぞれが視覚言語モデル(VLM)によって生成された詳細なキャプションと組み合わせる。 VLMは、画像に摂動を付加し、VLMを誤ったキャプションを発生させる、ステルスな敵攻撃に対して脆弱である。潜在的な防御効果は有効であるが、アダプティブアタッカーによる攻撃を標的とし回避することができる。
論文参考訳（メタデータ） (2025-06-27T03:13:47Z)
Image Corruption-Inspired Membership Inference Attacks against Large Vision-Language Models [27.04420374256226]
大規模視覚言語モデル(LVLM)は多くの下流タスクにおいて優れた性能を示した。画像がLVLMのトレーニングに使用されるかどうかを検出することが重要である。最近の研究は、LVLMに対するMIA(メンバシップ推論攻撃)について研究している。
論文参考訳（メタデータ） (2025-06-14T04:22:36Z)
Typographic Attacks in a Multi-Image Setting [2.9154316123656927]
タイポグラフィー攻撃の研究のためのマルチイメージ設定を提案する。具体的には、アタッククエリを繰り返すことなく、イメージセットをアタックすることに重点を置いています。対象画像の難易度,攻撃テキストの強度,テキスト画像の類似性を活用し,マルチイメージ設定のための2つの攻撃戦略を導入する。
論文参考訳（メタデータ） (2025-02-12T08:10:25Z)
`Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [6.151779089440453]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文参考訳（メタデータ） (2025-02-02T10:05:08Z)
AnyAttack: Towards Large-scale Self-supervised Generation of Targeted Adversarial Examples for Vision-Language Models [41.044385916368455]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。本稿では,ラベル管理なしでVLMのターゲット画像を生成する自己教師型フレームワークであるAnyAttackを提案する。
論文参考訳（メタデータ） (2024-10-07T09:45:18Z)
Vera Verto: Multimodal Hijacking Attack [22.69532868255637]
このドメインにおける最近の攻撃は、モデルハイジャック攻撃であり、敵が犠牲者モデルをハイジャックして、自身のハイジャックタスクを実装する。我々は、モデルハイジャック攻撃をより一般的なマルチモーダル設定に変換し、異なるモダリティのデータに基づいて、ハイジャックと元のタスクを実行する。 STL10, CIFAR-10, MNISTをハイジャックするために, Sogou ニュースデータセットを使用すると, 94%, 94%, 95%の攻撃成功率が得られる。
論文参考訳（メタデータ） (2024-07-31T19:37:06Z)
Adversarial Attacks on Multimodal Agents [73.97379283655127]
視覚対応言語モデル(VLM)は、現在、実環境でのアクションを可能にする自律的なマルチモーダルエージェントの構築に使用されている。攻撃エージェントは、環境への限られたアクセスと知識により、以前の攻撃よりも困難であるにもかかわらず、マルチモーダルエージェントが新たな安全リスクを生じさせることを示す。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文参考訳（メタデータ） (2024-06-06T13:00:42Z)
White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文参考訳（メタデータ） (2024-05-28T07:13:30Z)
VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Models [58.21452697997078]
本稿では,画像とテキストの摂動を設計モジュールで生成できる新しいVQAttackモデルを提案する。 5つの検証モデルを持つ2つのVQAデータセットの実験結果は、提案したVQAttackの有効性を示す。
論文参考訳（メタデータ） (2024-02-16T21:17:42Z)
Vision-LLMs Can Fool Themselves with Self-Generated Typographic Attacks [62.34019142949628]
誤読テキストを画像に貼り付けるタイポグラフィーアタックは、CLIPのようなビジョンランゲージモデルの性能を損なうことが知られている。我々は、LVLMが自身に対する攻撃を発生させる2つの新しい、より効果的なTextitSelf-Generated攻撃を導入する。ベンチマークにより,自己生成攻撃が重大な脅威となり,LVLM(s)分類性能が最大33%低下することが判明した。
論文参考訳（メタデータ） (2024-02-01T14:41:20Z)
InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文参考訳（メタデータ） (2023-12-04T13:40:05Z)
Universal and Transferable Adversarial Attacks on Aligned Language Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文参考訳（メタデータ） (2023-07-27T17:49:12Z)
Fooling Contrastive Language-Image Pre-trained Models with CLIPMasterPrints [15.643898659673036]
汎用性にも拘わらず、CLIPモデルは、マスタイメージをだますものとして、私たちが言うものに対して脆弱であることを示す。フーリングマスターイメージは、CLIPモデルの信頼性スコアを最大化し、広範囲に変化するプロンプトのかなりの数に設定することができる。私たちはCLIPMasterPrintsのマスターイメージが、勾配降下、投影降下、ブラックボックス最適化によってどのようにマイニングされるかを実証する。
論文参考訳（メタデータ） (2023-07-07T18:54:11Z)
Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文参考訳（メタデータ） (2020-09-05T06:00:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。