論文の概要: Visual Memory Injection Attacks for Multi-Turn Conversations
- arxiv url: http://arxiv.org/abs/2602.15927v1
- Date: Tue, 17 Feb 2026 18:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.404384
- Title: Visual Memory Injection Attacks for Multi-Turn Conversations
- Title(参考訳): マルチターン対話のためのビジュアルメモリインジェクションアタック
- Authors: Christian Schlarmann, Matthias Hein,
- Abstract要約: 生成型大規模視覚言語モデル(LVLM)は、最近、顕著なパフォーマンス向上を達成した。
本稿では,攻撃者が操作された画像をウェブ・ソーシャル・メディアにアップロードする現実的なシナリオについて考察する。
良心的なユーザーがこの画像をダウンロードし、LVLMへの入力として使用する。
我々の新しいステルス・ビジュアルメモリ・インジェクション(VMI)攻撃は、通常のプロンプトでLVLMが名目上の振る舞いを示すように設計されている。
- 参考スコア(独自算出の注目度): 16.133247317852874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative large vision-language models (LVLMs) have recently achieved impressive performance gains, and their user base is growing rapidly. However, the security of LVLMs, in particular in a long-context multi-turn setting, is largely underexplored. In this paper, we consider the realistic scenario in which an attacker uploads a manipulated image to the web/social media. A benign user downloads this image and uses it as input to the LVLM. Our novel stealthy Visual Memory Injection (VMI) attack is designed such that on normal prompts the LVLM exhibits nominal behavior, but once the user gives a triggering prompt, the LVLM outputs a specific prescribed target message to manipulate the user, e.g. for adversarial marketing or political persuasion. Compared to previous work that focused on single-turn attacks, VMI is effective even after a long multi-turn conversation with the user. We demonstrate our attack on several recent open-weight LVLMs. This article thereby shows that large-scale manipulation of users is feasible with perturbed images in multi-turn conversation settings, calling for better robustness of LVLMs against these attacks. We release the source code at https://github.com/chs20/visual-memory-injection
- Abstract(参考訳): 生成型大規模視覚言語モデル(LVLM)は近年,目覚ましいパフォーマンス向上を遂げており,ユーザベースも急速に成長している。
しかし、LVLMのセキュリティ、特に長文のマルチターン設定は、ほとんど探索されていない。
本稿では,攻撃者が操作された画像をウェブ・ソーシャル・メディアにアップロードする現実的なシナリオについて考察する。
良心的なユーザーがこの画像をダウンロードし、LVLMへの入力として使用する。
我々の新しいステルス・ビジュアルメモリ・インジェクション(VMI)攻撃は、通常のプロンプトでLVLMが名目的動作を示すように設計されているが、ユーザがトリガーのプロンプトを与えると、LVLMは特定のターゲットメッセージを出力してユーザを操作する。
シングルターン攻撃に焦点を当てた以前の作業と比較すると、VMIはユーザとの長時間のマルチターン会話の後にも有効である。
我々は最近のオープンウェイトLVLMに対する攻撃を実演する。
本稿は,LVLMの攻撃に対するロバスト性の向上を訴えるマルチターン会話設定において,ユーザの大規模な操作が摂動画像で実現可能であることを示す。
ソースコードはhttps://github.com/chs20/visual-Memory-injectionで公開しています。
関連論文リスト
- MTAttack: Multi-Target Backdoor Attacks against Large Vision-Language Models [52.37749859972453]
我々は,LVLMにおける複数のトリガターゲットマッピングを正確に行うための,最初のマルチターゲットバックドアアタックフレームワークであるMTAttackを提案する。
人気のあるベンチマークの実験では、マルチターゲット攻撃に対するMTAttackの成功率が高いことが示されている。
我々の攻撃は、データセット間での強力な一般化性と、バックドア防衛戦略に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-13T09:00:21Z) - TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models [57.32952956674526]
大規模視覚言語モデル(LVLM)に対するより回避的でステルス的なバックドア攻撃であるTokenSwapを紹介する。
固定されたターゲットコンテンツを強制するのではなく、TokenSwapはテキスト内のオブジェクト関係の理解を微妙に妨害する。
TokenSwapは、優れた回避性とステルス性を維持しながら、高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-09-29T10:19:22Z) - Image Corruption-Inspired Membership Inference Attacks against Large Vision-Language Models [27.04420374256226]
大規模視覚言語モデル(LVLM)は多くの下流タスクにおいて優れた性能を示した。
画像がLVLMのトレーニングに使用されるかどうかを検出することが重要である。
最近の研究は、LVLMに対するMIA(メンバシップ推論攻撃)について研究している。
論文 参考訳(メタデータ) (2025-06-14T04:22:36Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - Misusing Tools in Large Language Models With Visual Adversarial Examples [34.82432122637917]
攻撃者が視覚的敵意の具体例を用いて攻撃者が好むツールの使用を誘導できることが示される。
例えば、攻撃者は被害者のLSMにカレンダーのイベントを削除したり、プライベートな会話をリークしたり、ホテルを予約したりすることができる。
我々は、勾配に基づく対角訓練を用いてこれらの攻撃を構築し、複数の次元にまたがる性能を特徴付ける。
論文 参考訳(メタデータ) (2023-10-04T22:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。