論文の概要: Imprompter: Tricking LLM Agents into Improper Tool Use
- arxiv url: http://arxiv.org/abs/2410.14923v2
- Date: Tue, 22 Oct 2024 00:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:26:51.880396
- Title: Imprompter: Tricking LLM Agents into Improper Tool Use
- Title(参考訳): Imprompter: LLMエージェントをImproperツールで使う方法
- Authors: Xiaohan Fu, Shuheng Li, Zihan Wang, Yihao Liu, Rajesh K. Gupta, Taylor Berg-Kirkpatrick, Earlence Fernandes,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。
我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
- 参考スコア(独自算出の注目度): 35.255462653237885
- License:
- Abstract: Large Language Model (LLM) Agents are an emerging computing paradigm that blends generative machine learning with tools such as code interpreters, web browsing, email, and more generally, external resources. These agent-based systems represent an emerging shift in personal computing. We contribute to the security foundations of agent-based systems and surface a new class of automatically computed obfuscated adversarial prompt attacks that violate the confidentiality and integrity of user resources connected to an LLM agent. We show how prompt optimization techniques can find such prompts automatically given the weights of a model. We demonstrate that such attacks transfer to production-level agents. For example, we show an information exfiltration attack on Mistral's LeChat agent that analyzes a user's conversation, picks out personally identifiable information, and formats it into a valid markdown command that results in leaking that data to the attacker's server. This attack shows a nearly 80% success rate in an end-to-end evaluation. We conduct a range of experiments to characterize the efficacy of these attacks and find that they reliably work on emerging agent-based systems like Mistral's LeChat, ChatGLM, and Meta's Llama. These attacks are multimodal, and we show variants in the text-only and image domains.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。
これらのエージェントベースのシステムは、パーソナルコンピューティングの新たなシフトを表している。
我々はエージェントベースのシステムのセキュリティ基盤に貢献し、LLMエージェントに接続されたユーザリソースの機密性や整合性に反する、自動的に計算される難解な敵攻撃のクラスを探索する。
本稿では,モデルの重みを考慮し,このようなプロンプトを自動的に検出する手法を提案する。
このような攻撃が生産レベルのエージェントに転送されることを実証する。
例えば、MistralのLeChatエージェントに対する情報流出攻撃を示し、ユーザーの会話を分析し、個人識別可能な情報を抽出し、それを有効なマークダウンコマンドにフォーマットし、攻撃者のサーバにそのデータを漏洩させる。
この攻撃は、エンドツーエンドの評価で80%近い成功率を示している。
我々は、これらの攻撃の有効性を特徴づける実験を行い、MistralのLeChat、ChatGLM、MetaのLlamaのような新しいエージェントベースのシステムに確実に取り組むことを発見した。
これらの攻撃はマルチモーダルであり、テキストのみおよび画像ドメインのバリエーションを示す。
関連論文リスト
- Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - On the Resilience of Multi-Agent Systems with Malicious Agents [58.79302663733702]
本稿では,悪意のあるエージェント下でのマルチエージェントシステムのレジリエンスについて検討する。
我々は、任意のエージェントを悪意のあるエージェントに変換する2つの方法、AutoTransformとAutoInjectを考案した。
各エージェントが他のエージェントの出力に挑戦するためのメカニズムを導入するか、あるいはメッセージのレビューと修正を行う追加のエージェントを導入することで、システムのレジリエンスを高めることができることを示す。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。
提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文 参考訳(メタデータ) (2024-06-05T07:14:28Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z) - KwaiAgents: Generalized Information-seeking Agent System with Large
Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。
大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。
LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文 参考訳(メタデータ) (2023-12-08T08:11:11Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Misusing Tools in Large Language Models With Visual Adversarial Examples [34.82432122637917]
攻撃者が視覚的敵意の具体例を用いて攻撃者が好むツールの使用を誘導できることが示される。
例えば、攻撃者は被害者のLSMにカレンダーのイベントを削除したり、プライベートな会話をリークしたり、ホテルを予約したりすることができる。
我々は、勾配に基づく対角訓練を用いてこれらの攻撃を構築し、複数の次元にまたがる性能を特徴付ける。
論文 参考訳(メタデータ) (2023-10-04T22:10:01Z) - Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。
このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。
また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T10:53:29Z) - Attribution of Gradient Based Adversarial Attacks for Reverse
Engineering of Deceptions [16.23543028393521]
敵対的ML攻撃ツールチェーンの自動識別とアトリビューションをサポートする2つのテクニックを紹介します。
我々の知る限りでは、これは属性勾配に基づく敵攻撃とそれらのパラメータを推定する最初のアプローチである。
論文 参考訳(メタデータ) (2021-03-19T19:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。