Fugu-MT 論文翻訳(概要): AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

論文の概要: AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

arxiv url: http://arxiv.org/abs/2410.09024v2
Date: Mon, 14 Oct 2024 17:28:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 20:26:51.494434
Title: AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents
Title（参考訳）: AgentHarm: LLMエージェントの有害度測定ベンチマーク
Authors: Maksym Andriushchenko, Alexandra Souly, Mateusz Dziemian, Derek Duenas, Maxwell Lin, Justin Wang, Dan Hendrycks, Andy Zou, Zico Kolter, Matt Fredrikson, Eric Winsor, Jerome Wynne, Yarin Gal, Xander Davies,
Abstract要約: LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
参考スコア（独自算出の注目度）: 84.96249955105777
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The robustness of LLMs to jailbreak attacks, where users design prompts to circumvent safety measures and misuse model capabilities, has been studied primarily for LLMs acting as simple chatbots. Meanwhile, LLM agents -- which use external tools and can execute multi-stage tasks -- may pose a greater risk if misused, but their robustness remains underexplored. To facilitate research on LLM agent misuse, we propose a new benchmark called AgentHarm. The benchmark includes a diverse set of 110 explicitly malicious agent tasks (440 with augmentations), covering 11 harm categories including fraud, cybercrime, and harassment. In addition to measuring whether models refuse harmful agentic requests, scoring well on AgentHarm requires jailbroken agents to maintain their capabilities following an attack to complete a multi-step task. We evaluate a range of leading LLMs, and find (1) leading LLMs are surprisingly compliant with malicious agent requests without jailbreaking, (2) simple universal jailbreak templates can be adapted to effectively jailbreak agents, and (3) these jailbreaks enable coherent and malicious multi-step agent behavior and retain model capabilities. To enable simple and reliable evaluation of attacks and defenses for LLM-based agents, we publicly release AgentHarm at https://huggingface.co/datasets/ai-safety-institute/AgentHarm.
Abstract（参考訳）: LLMのジェイルブレイク攻撃に対する堅牢性は、ユーザーが安全対策や誤用モデル機能を回避するよう促すものであり、主に単純なチャットボットとして機能するLSMについて研究されている。一方、外部ツールを使用し、マルチステージタスクを実行可能なLDMエージェントは、誤用された場合、より大きなリスクを引き起こす可能性があるが、その堅牢性は未調査のままである。 LLMエージェントの誤用に関する研究を容易にするために,AgentHarmという新しいベンチマークを提案する。このベンチマークには、不正、サイバー犯罪、ハラスメントを含む11の有害カテゴリをカバーする、110の明確な悪意のあるエージェントタスク(強化された440)の多種多様なセットが含まれている。モデルが有害なエージェント要求を拒否するかどうかを測定することに加えて、AgentHarmでは、マルチステップタスクを完了させるためには、ジェイルブレイクエージェントが攻撃後の能力を維持する必要がある。そこで,本研究では,(1)LDMがジェイルブレイクなしで悪質なエージェント要求に驚くほど準拠していること,(2)ジェイルブレイクを効果的に適用できること,(3)ジェイルブレイクによって,一貫性のある,悪意のあるマルチステップエージェントの動作が可能であること,およびモデル機能を維持すること,について検討する。 LLMベースのエージェントに対する攻撃と防御の簡易かつ確実な評価を可能にするため、AgentHarmをhttps://huggingface.co/datasets/ai-safety-institute/AgentHarmで公開しています。

関連論文リスト

ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。 LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文参考訳（メタデータ） (2026-01-15T07:54:32Z)
ASTRA: Agentic Steerability and Risk Assessment Framework [3.9756746779772834]
大規模言語モデル(LLM)を活用したAIエージェントのセキュア化は、今日のAIセキュリティにおける最も重要な課題の1つだ。 ASTRA は LLM の有効性を評価するための第一種フレームワークである。
論文参考訳（メタデータ） (2025-11-22T16:32:29Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)
Les Dissonances: Cross-Tool Harvesting and Polluting in Multi-Tool Empowered LLM Agents [15.15485816037418]
本稿では,マルチツール対応LLMエージェントにおけるタスク制御フローのシステマティックセキュリティ解析について述べる。複数の攻撃ベクトルを含む新しい脅威であるクロスツールハーベスティングとポリッティング(XTHP)を同定する。この脅威の影響を理解するために,我々は,XTHP攻撃を受けやすい現実世界のエージェントツールを自動的に検出する動的スキャンツールであるChordを開発した。
論文参考訳（メタデータ） (2025-04-04T01:41:06Z)
Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Models (LLMs) を中心とした保護システムレイヤを作成する堅牢な防御機能である。 CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。最近のエージェントセキュリティベンチマークであるAgentDojo[NeurIPS 2024]で、証明可能なセキュリティを備えた67%のタスクを解決し、CaMeLの有効性を実証した。
論文参考訳（メタデータ） (2025-03-24T15:54:10Z)
Prompt Flow Integrity to Prevent Privilege Escalation in LLM Agents [12.072737324367937]
大規模言語モデル(LLM)における特権エスカレーションを防止するために,PFI(Prompt Flow Integrity)を提案する。 PFIは、エージェントアイソレーション、セキュアな信頼できないデータ処理、特権エスカレーションガードレールの3つの緩和技術を備えている。評価の結果, PFI は LLM エージェントの有効性を保ちながら, 特権エスカレーション攻撃を効果的に軽減できることが示唆された。
論文参考訳（メタデータ） (2025-03-17T05:27:57Z)
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文参考訳（メタデータ） (2025-02-12T17:19:36Z)
SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。 SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文参考訳（メタデータ） (2024-12-17T18:55:58Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Improved Large Language Model Jailbreak Detection via Pretrained Embeddings [0.0]
本稿では,従来の機械学習分類アルゴリズムを用いた検索に適したペアリングテキスト埋め込みに基づくジェイルブレイクプロンプトの検出手法を提案する。当社のアプローチは,オープンソースのLLMセキュリティアプリケーションから入手可能なすべてのメソッドを上回ります。
論文参考訳（メタデータ） (2024-12-02T14:35:43Z)
When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs [26.2943792874156]
個人データを含むサイバー攻撃における大規模言語モデル(LLM)の誤用に関連するリスクについて検討する。具体的には,サイバーアタックの実施を指示されたLLMエージェントがいかに強力かを理解することを目的としている。本稿では,PII(Personally Identible Information)の収集,偽造投稿の生成,スピアフィッシングメールの作成の3つの攻撃シナリオについて検討する。
論文参考訳（メタデータ） (2024-10-18T16:16:34Z)
AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems [43.333567687032904]
AgentMonitorはエージェントレベルで統合されたフレームワークで、インプットとアウトプットをキャプチャし、回帰モデルをトレーニングしてタスクのパフォーマンスを予測する統計に変換する。さらに、悪意のあるエージェントによるセキュリティリスクに対処し、ネガティブな影響を軽減し、MASセキュリティを強化するために、リアルタイムの修正を適用することができる。
論文参考訳（メタデータ） (2024-08-27T11:24:38Z)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。 GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文参考訳（メタデータ） (2024-06-13T14:49:26Z)
BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文参考訳（メタデータ） (2024-06-05T07:14:28Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文参考訳（メタデータ） (2024-02-17T06:48:45Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。