論文の概要: AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents
- arxiv url: http://arxiv.org/abs/2410.09024v1
- Date: Mon, 14 Oct 2024 17:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 20:26:51.497800
- Title: AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents
- Title(参考訳): AgentHarm: LLMエージェントの有害度測定ベンチマーク
- Authors: Maksym Andriushchenko, Alexandra Souly, Mateusz Dziemian, Derek Duenas, Maxwell Lin, Justin Wang, Dan Hendrycks, Andy Zou, Zico Kolter, Matt Fredrikson, Eric Winsor, Jerome Wynne, Yarin Gal, Xander Davies,
- Abstract要約: 我々は、LDMベースのエージェントに対する攻撃と防御の評価を可能にするために、AgentHarmをリリースする。
ベンチマークには、110の明示的な悪意のあるエージェントタスクが含まれており、詐欺、サイバー犯罪、ハラスメントを含む11の有害カテゴリをカバーする。
一般的なジェイルブレイクテンプレートは、効果的にジェイルブレイクエージェントに適応することができ、これらのジェイルブレイクは一貫性があり悪意のあるマルチステップエージェントの動作を可能にし、モデル機能を保持します。
- 参考スコア(独自算出の注目度): 84.96249955105777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The robustness of LLMs to jailbreak attacks, where users design prompts to circumvent safety measures and misuse model capabilities, has been studied primarily for LLMs acting as simple chatbots. Meanwhile, LLM agents -- which use external tools and can execute multi-stage tasks -- may pose a greater risk if misused, but their robustness remains underexplored. To facilitate research on LLM agent misuse, we propose a new benchmark called AgentHarm. The benchmark includes a diverse set of 110 explicitly malicious agent tasks (440 with augmentations), covering 11 harm categories including fraud, cybercrime, and harassment. In addition to measuring whether models refuse harmful agentic requests, scoring well on AgentHarm requires jailbroken agents to maintain their capabilities following an attack to complete a multi-step task. We evaluate a range of leading LLMs, and find (1) leading LLMs are surprisingly compliant with malicious agent requests without jailbreaking, (2) simple universal jailbreak templates can be adapted to effectively jailbreak agents, and (3) these jailbreaks enable coherent and malicious multi-step agent behavior and retain model capabilities. We publicly release AgentHarm to enable simple and reliable evaluation of attacks and defenses for LLM-based agents. We publicly release the benchmark at https://huggingface.co/ai-safety-institute/AgentHarm.
- Abstract(参考訳): LLMのジェイルブレイク攻撃に対する堅牢性は、ユーザーが安全対策や誤用モデル機能を回避するよう促すものであり、主に単純なチャットボットとして機能するLSMについて研究されている。
一方、外部ツールを使用し、マルチステージタスクを実行可能なLDMエージェントは、誤用された場合、より大きなリスクを引き起こす可能性があるが、その堅牢性は未調査のままである。
LLMエージェントの誤用に関する研究を容易にするために,AgentHarmという新しいベンチマークを提案する。
このベンチマークには、不正、サイバー犯罪、ハラスメントを含む11の有害カテゴリをカバーする、110の明確な悪意のあるエージェントタスク(強化された440)の多種多様なセットが含まれている。
モデルが有害なエージェント要求を拒否するかどうかを測定することに加えて、AgentHarmでは、マルチステップタスクを完了させるためには、ジェイルブレイクエージェントが攻撃後の能力を維持する必要がある。
そこで,本研究では,(1)LDMがジェイルブレイクなしで悪質なエージェント要求に驚くほど準拠していること,(2)ジェイルブレイクを効果的に適用できること,(3)ジェイルブレイクによって,一貫性のある,悪意のあるマルチステップエージェントの動作が可能であること,およびモデル機能を維持すること,について検討する。
我々は,LDMベースのエージェントに対する攻撃と防御の簡易かつ信頼性の高い評価を可能にするために,AgentHarmを一般公開した。
ベンチマークはhttps://huggingface.co/ai-safety-institute/AgentHarm.comで公開しています。
関連論文リスト
- When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs [26.2943792874156]
個人データを含むサイバー攻撃における大規模言語モデル(LLM)の誤用に関連するリスクについて検討する。
具体的には,サイバーアタックの実施を指示されたLLMエージェントがいかに強力かを理解することを目的としている。
本稿では,PII(Personally Identible Information)の収集,偽造投稿の生成,スピアフィッシングメールの作成の3つの攻撃シナリオについて検討する。
論文 参考訳(メタデータ) (2024-10-18T16:16:34Z) - AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems [43.333567687032904]
AgentMonitorはエージェントレベルで統合されたフレームワークで、インプットとアウトプットをキャプチャし、回帰モデルをトレーニングしてタスクのパフォーマンスを予測する統計に変換する。
さらに、悪意のあるエージェントによるセキュリティリスクに対処し、ネガティブな影響を軽減し、MASセキュリティを強化するために、リアルタイムの修正を適用することができる。
論文 参考訳(メタデータ) (2024-08-27T11:24:38Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。
提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文 参考訳(メタデータ) (2024-06-05T07:14:28Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。