論文の概要: Abusing Images and Sounds for Indirect Instruction Injection in
Multi-Modal LLMs
- arxiv url: http://arxiv.org/abs/2307.10490v4
- Date: Tue, 3 Oct 2023 17:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 07:56:11.184808
- Title: Abusing Images and Sounds for Indirect Instruction Injection in
Multi-Modal LLMs
- Title(参考訳): マルチモードLDMにおける間接インストラクション注入のための画像と音の除去
- Authors: Eugene Bagdasaryan, Tsung-Yin Hsieh, Ben Nassi, Vitaly Shmatikov
- Abstract要約: マルチモーダルLLMにおける間接的プロンプトおよびインジェクションインジェクションに画像と音をどのように利用できるかを示す。
攻撃者は、プロンプトに対応する敵の摂動を生成し、それを画像またはオーディオ記録にブレンドする。
ユーザが画像またはオーディオに関する(修正されていない、良心的な)モデルを尋ねると、摂動はモデルを操り、攻撃者長文を出力し、/またはその後のダイアログを攻撃者の指示に従うようにする。
- 参考スコア(独自算出の注目度): 16.43263222686813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate how images and sounds can be used for indirect prompt and
instruction injection in multi-modal LLMs. An attacker generates an adversarial
perturbation corresponding to the prompt and blends it into an image or audio
recording. When the user asks the (unmodified, benign) model about the
perturbed image or audio, the perturbation steers the model to output the
attacker-chosen text and/or make the subsequent dialog follow the attacker's
instruction. We illustrate this attack with several proof-of-concept examples
targeting LLaVa and PandaGPT.
- Abstract(参考訳): マルチモーダルLLMにおける間接的プロンプトおよびインジェクションインジェクションに画像と音をどのように利用できるかを示す。
攻撃者は、プロンプトに対応する敵対的摂動を生成し、画像または音声記録にブレンドする。
ユーザが摂動画像またはオーディオに関する(修正されていない、良心的な)モデルを尋ねると、摂動はモデルを操り、攻撃長文を出力し、/またはその後のダイアログを攻撃者の指示に従うようにする。
この攻撃をLLaVaとPandaGPTをターゲットにした概念実証例で説明する。
関連論文リスト
- Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Soft Prompts Go Hard: Steering Visual Language Models with Hidden Meta-Instructions [7.985140438089331]
画像上で動作する言語モデルに対して,新しいタイプの間接的インジェクションアタックを導入する。
ソフトプロンプトとして機能する画像を生成することによってメタ命令を生成する方法について説明する。
複数の視覚言語モデルと対向的メタオブジェクトに対するメタインストラクションの有効性を評価する。
論文 参考訳(メタデータ) (2024-07-12T03:40:13Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language Models [13.21813503235793]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者LVLMの視覚エンコーダのみを敵が知ることのできる,新規で実用的な攻撃シナリオを定式化する。
本研究では,LVLMに対して高い転送性を有する目標対向攻撃を実現するために,命令調整型ターゲットアタック(dubed textscInstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - Instruct2Attack: Language-Guided Semantic Adversarial Attacks [76.83548867066561]
Instruct2Attack (I2A) は、自由形式の言語命令に従って意味のある摂動を生成する言語誘導セマンティックアタックである。
我々は最先端の潜伏拡散モデルを用いて、逆拡散過程を逆ガイドし、入力画像とテキスト命令に条件付けされた逆潜伏符号を探索する。
I2Aは、強い敵の防御の下でも最先端のディープニューラルネットワークを破ることができることを示す。
論文 参考訳(メタデータ) (2023-11-27T05:35:49Z) - Image Hijacks: Adversarial Images can Control Generative Models at Runtime [8.603201325413192]
推論時に視覚言語モデルの振る舞いを制御する画像ハイジャック, 逆画像を検出する。
Prompt Matching法を考案し、任意のユーザ定義テキストプロンプトの動作にマッチしたハイジャックをトレーニングする。
我々は、Behaviour Matchingを使って、4種類の攻撃に対してハイジャックを作らせ、VLMは敵の選択の出力を生成し、コンテキストウィンドウから情報をリークし、安全トレーニングをオーバーライドし、偽の声明を信じるように強制する。
論文 参考訳(メタデータ) (2023-09-01T03:53:40Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。