論文の概要: (Ab)using Images and Sounds for Indirect Instruction Injection in
Multi-Modal LLMs
- arxiv url: http://arxiv.org/abs/2307.10490v3
- Date: Mon, 24 Jul 2023 15:24:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 11:23:49.514427
- Title: (Ab)using Images and Sounds for Indirect Instruction Injection in
Multi-Modal LLMs
- Title(参考訳): (ab)マルチモーダルllmにおける間接インジェクションのための画像と音の利用
- Authors: Eugene Bagdasaryan, Tsung-Yin Hsieh, Ben Nassi, Vitaly Shmatikov
- Abstract要約: マルチモーダルLLMにおける間接的プロンプトおよびインジェクションインジェクションに画像と音をどのように利用できるかを示す。
攻撃者は、プロンプトに対応する敵の摂動を生成し、それを画像またはオーディオ記録にブレンドする。
ユーザが画像またはオーディオに関する(修正されていない、良心的な)モデルを尋ねると、摂動はモデルを操り、攻撃者長文を出力し、/またはその後のダイアログを攻撃者の指示に従うようにする。
- 参考スコア(独自算出の注目度): 22.39613277689224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate how images and sounds can be used for indirect prompt and
instruction injection in multi-modal LLMs. An attacker generates an adversarial
perturbation corresponding to the prompt and blends it into an image or audio
recording. When the user asks the (unmodified, benign) model about the
perturbed image or audio, the perturbation steers the model to output the
attacker-chosen text and/or make the subsequent dialog follow the attacker's
instruction. We illustrate this attack with several proof-of-concept examples
targeting LLaVa and PandaGPT.
- Abstract(参考訳): マルチモーダルLLMにおける間接的プロンプトおよびインジェクションインジェクションに画像と音をどのように利用できるかを示す。
攻撃者は、プロンプトに対応する敵対的摂動を生成し、画像または音声記録にブレンドする。
ユーザが摂動画像またはオーディオに関する(修正されていない、良心的な)モデルを尋ねると、摂動はモデルを操り、攻撃長文を出力し、/またはその後のダイアログを攻撃者の指示に従うようにする。
この攻撃をLLaVaとPandaGPTをターゲットにした概念実証例で説明する。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - InstructTA: Instruction-Tuned Targeted Attack for Large Vision-Language
Models [14.181022690391318]
大規模視覚言語モデル(LVLM)は、画像理解と応答生成において、その驚くべき能力を示した。
本稿では,被害者のLVLMの視覚的エンコーダにのみアクセス可能な,斬新で実用的なグレーボックス攻撃シナリオを定式化する。
本研究では,LVLMに対して高い伝達性を有する目標対向攻撃を実現するために,命令調整型目標攻撃(InstructTA)を提案する。
論文 参考訳(メタデータ) (2023-12-04T13:40:05Z) - Instruct2Attack: Language-Guided Semantic Adversarial Attacks [76.83548867066561]
Instruct2Attack (I2A) は、自由形式の言語命令に従って意味のある摂動を生成する言語誘導セマンティックアタックである。
我々は最先端の潜伏拡散モデルを用いて、逆拡散過程を逆ガイドし、入力画像とテキスト命令に条件付けされた逆潜伏符号を探索する。
I2Aは、強い敵の防御の下でも最先端のディープニューラルネットワークを破ることができることを示す。
論文 参考訳(メタデータ) (2023-11-27T05:35:49Z) - Misusing Tools in Large Language Models With Visual Adversarial Examples [34.82432122637917]
攻撃者が視覚的敵意の具体例を用いて攻撃者が好むツールの使用を誘導できることが示される。
例えば、攻撃者は被害者のLSMにカレンダーのイベントを削除したり、プライベートな会話をリークしたり、ホテルを予約したりすることができる。
我々は、勾配に基づく対角訓練を用いてこれらの攻撃を構築し、複数の次元にまたがる性能を特徴付ける。
論文 参考訳(メタデータ) (2023-10-04T22:10:01Z) - Image Hijacks: Adversarial Images can Control Generative Models at Runtime [8.603201325413192]
推論時に視覚言語モデルの振る舞いを制御する画像ハイジャック, 逆画像を検出する。
Prompt Matching法を考案し、任意のユーザ定義テキストプロンプトの動作にマッチしたハイジャックをトレーニングする。
我々は、Behaviour Matchingを使って、4種類の攻撃に対してハイジャックを作らせ、VLMは敵の選択の出力を生成し、コンテキストウィンドウから情報をリークし、安全トレーニングをオーバーライドし、偽の声明を信じるように強制する。
論文 参考訳(メタデータ) (2023-09-01T03:53:40Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Introducing Model Inversion Attacks on Automatic Speaker Recognition [0.9558392439655015]
モデル反転(MI)攻撃は、機械学習(ML)モデルのトレーニングデータのクラス毎の平均表現を再構築することを可能にする。
本稿では,(1)訓練されたMLモデルから音声サンプルを再構成し,(2)話者の生体情報に有意な洞察を与える中間的音声特徴表現を抽出する手法を提案する。
我々のスライディングMIは、オーディオサンプルの重なり合うチャンクを反復反転することで標準MIを拡張します。
逆音声データを用いて話者を偽装する音声サンプルを生成し、高度にセキュアなシステムに対して音声保護コマンドを実行することができることを示す。
論文 参考訳(メタデータ) (2023-01-09T08:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。