論文の概要: Misusing Tools in Large Language Models With Visual Adversarial Examples
- arxiv url: http://arxiv.org/abs/2310.03185v1
- Date: Wed, 4 Oct 2023 22:10:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 20:10:08.812814
- Title: Misusing Tools in Large Language Models With Visual Adversarial Examples
- Title(参考訳): 視覚障害者向け大規模言語モデルにおけるツールの誤用
- Authors: Xiaohan Fu, Zihan Wang, Shuheng Li, Rajesh K. Gupta, Niloofar
Mireshghallah, Taylor Berg-Kirkpatrick, Earlence Fernandes
- Abstract要約: 攻撃者が視覚的敵意の具体例を用いて攻撃者が好むツールの使用を誘導できることが示される。
例えば、攻撃者は被害者のLSMにカレンダーのイベントを削除したり、プライベートな会話をリークしたり、ホテルを予約したりすることができる。
我々は、勾配に基づく対角訓練を用いてこれらの攻撃を構築し、複数の次元にまたがる性能を特徴付ける。
- 参考スコア(独自算出の注目度): 34.82432122637917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are being enhanced with the ability to use tools
and to process multiple modalities. These new capabilities bring new benefits
and also new security risks. In this work, we show that an attacker can use
visual adversarial examples to cause attacker-desired tool usage. For example,
the attacker could cause a victim LLM to delete calendar events, leak private
conversations and book hotels. Different from prior work, our attacks can
affect the confidentiality and integrity of user resources connected to the LLM
while being stealthy and generalizable to multiple input prompts. We construct
these attacks using gradient-based adversarial training and characterize
performance along multiple dimensions. We find that our adversarial images can
manipulate the LLM to invoke tools following real-world syntax almost always
(~98%) while maintaining high similarity to clean images (~0.9 SSIM).
Furthermore, using human scoring and automated metrics, we find that the
attacks do not noticeably affect the conversation (and its semantics) between
the user and the LLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ツールの使用と複数のモダリティの処理によって拡張されている。
これらの新機能は新たなメリットと新たなセキュリティリスクをもたらす。
本研究では,攻撃者が視覚的敵意の具体例を用いて攻撃者が好むツールの使用を誘導できることを示す。
例えば、被害者のLSMがカレンダーのイベントを削除したり、プライベートな会話をリークしたり、ホテルを予約したりできる。
これまでの作業と異なり、当社の攻撃は、複数の入力プロンプトに対してステルスで一般化可能でありながら、LLMに接続されたユーザリソースの機密性と整合性に影響を与える可能性がある。
我々は,グラデーションに基づく逆訓練を用いてこれらの攻撃を構築し,多次元に沿って性能を特徴付ける。
現実の構文に追従するツールを常に (~98%) 呼び出すため, クリーンイメージと高い類似性 (~0.9 SSIM) を維持しながら, LLM を操作できることが判明した。
さらに,ヒューマンスコアと自動メトリクスを用いることで,攻撃がユーザとllmの間の会話(およびその意味論)に顕著に影響を与えないことが分かる。
関連論文リスト
- Imprompter: Tricking LLM Agents into Improper Tool Use [35.255462653237885]
大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。
我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
論文 参考訳(メタデータ) (2024-10-19T01:00:57Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。
間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。
我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文 参考訳(メタデータ) (2024-03-20T15:26:23Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。