論文の概要: Imprompter: Tricking LLM Agents into Improper Tool Use
- arxiv url: http://arxiv.org/abs/2410.14923v1
- Date: Sat, 19 Oct 2024 01:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:15:27.703642
- Title: Imprompter: Tricking LLM Agents into Improper Tool Use
- Title(参考訳): Imprompter: LLMエージェントをImproperツールで使う方法
- Authors: Xiaohan Fu, Shuheng Li, Zihan Wang, Yihao Liu, Rajesh K. Gupta, Taylor Berg-Kirkpatrick, Earlence Fernandes,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。
我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
- 参考スコア(独自算出の注目度): 35.255462653237885
- License:
- Abstract: Large Language Model (LLM) Agents are an emerging computing paradigm that blends generative machine learning with tools such as code interpreters, web browsing, email, and more generally, external resources. These agent-based systems represent an emerging shift in personal computing. We contribute to the security foundations of agent-based systems and surface a new class of automatically computed obfuscated adversarial prompt attacks that violate the confidentiality and integrity of user resources connected to an LLM agent. We show how prompt optimization techniques can find such prompts automatically given the weights of a model. We demonstrate that such attacks transfer to production-level agents. For example, we show an information exfiltration attack on Mistral's LeChat agent that analyzes a user's conversation, picks out personally identifiable information, and formats it into a valid markdown command that results in leaking that data to the attacker's server. This attack shows a nearly 80% success rate in an end-to-end evaluation. We conduct a range of experiments to characterize the efficacy of these attacks and find that they reliably work on emerging agent-based systems like Mistral's LeChat, ChatGLM, and Meta's Llama. These attacks are multimodal, and we show variants in the text-only and image domains.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。
これらのエージェントベースのシステムは、パーソナルコンピューティングの新たなシフトを表している。
我々はエージェントベースのシステムのセキュリティ基盤に貢献し、LLMエージェントに接続されたユーザリソースの機密性や整合性に反する、自動的に計算される難解な敵攻撃のクラスを探索する。
本稿では,モデルの重みを考慮し,このようなプロンプトを自動的に検出する手法を提案する。
このような攻撃が生産レベルのエージェントに転送されることを実証する。
例えば、MistralのLeChatエージェントに対する情報流出攻撃を示し、ユーザーの会話を分析し、個人識別可能な情報を抽出し、それを有効なマークダウンコマンドにフォーマットし、攻撃者のサーバにそのデータを漏洩させる。
この攻撃は、エンドツーエンドの評価で80%近い成功率を示している。
我々は、これらの攻撃の有効性を特徴づける実験を行い、MistralのLeChat、ChatGLM、MetaのLlamaのような新しいエージェントベースのシステムに確実に取り組むことを発見した。
これらの攻撃はマルチモーダルであり、テキストのみおよび画像ドメインのバリエーションを示す。
関連論文リスト
- BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。
提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文 参考訳(メタデータ) (2024-06-05T07:14:28Z) - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - KwaiAgents: Generalized Information-seeking Agent System with Large
Language Models [33.59597020276034]
人間は批判的思考、計画、リフレクション、世界と対話し解釈するための利用可能なツールの活用に優れています。
大規模言語モデル(LLM)の最近の進歩は、マシンが前述の人間のような能力を持っていることも示唆している。
LLMに基づく汎用情報検索システムであるKwaiAgentsを紹介する。
論文 参考訳(メタデータ) (2023-12-08T08:11:11Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Misusing Tools in Large Language Models With Visual Adversarial Examples [34.82432122637917]
攻撃者が視覚的敵意の具体例を用いて攻撃者が好むツールの使用を誘導できることが示される。
例えば、攻撃者は被害者のLSMにカレンダーのイベントを削除したり、プライベートな会話をリークしたり、ホテルを予約したりすることができる。
我々は、勾配に基づく対角訓練を用いてこれらの攻撃を構築し、複数の次元にまたがる性能を特徴付ける。
論文 参考訳(メタデータ) (2023-10-04T22:10:01Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。
このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。
また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T10:53:29Z) - Attribution of Gradient Based Adversarial Attacks for Reverse
Engineering of Deceptions [16.23543028393521]
敵対的ML攻撃ツールチェーンの自動識別とアトリビューションをサポートする2つのテクニックを紹介します。
我々の知る限りでは、これは属性勾配に基づく敵攻撃とそれらのパラメータを推定する最初のアプローチである。
論文 参考訳(メタデータ) (2021-03-19T19:55:00Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。