論文の概要: Refusal-Trained LLMs Are Easily Jailbroken As Browser Agents
- arxiv url: http://arxiv.org/abs/2410.13886v2
- Date: Mon, 21 Oct 2024 18:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:25:34.189763
- Title: Refusal-Trained LLMs Are Easily Jailbroken As Browser Agents
- Title(参考訳): LLMは、ブラウザのエージェントとして簡単にジェイルブレイクされる
- Authors: Priyanshu Kumar, Elaine Lau, Saranya Vijayakumar, Tu Trinh, Scale Red Team, Elaine Chang, Vaughn Robinson, Sean Hendryx, Shuyan Zhou, Matt Fredrikson, Summer Yue, Zifan Wang,
- Abstract要約: 大規模言語モデル(LLM)は、危険な活動を支援するなど、有害なユーザ命令を拒否するように訓練されている。
我々は,非チャットおよびエージェントのユースケースに対して,所望の安全性の拒絶が一般化されるか,というオープンな問いについて検討する。
チャットボットとは異なり、LLMエージェントはウェブブラウザやモバイルデバイスのような汎用ツールを備えており、現実世界に直接影響を及ぼすことができる。
- 参考スコア(独自算出の注目度): 30.797257877473587
- License:
- Abstract: For safety reasons, large language models (LLMs) are trained to refuse harmful user instructions, such as assisting dangerous activities. We study an open question in this work: does the desired safety refusal, typically enforced in chat contexts, generalize to non-chat and agentic use cases? Unlike chatbots, LLM agents equipped with general-purpose tools, such as web browsers and mobile devices, can directly influence the real world, making it even more crucial to refuse harmful instructions. In this work, we primarily focus on red-teaming browser agents, LLMs that manipulate information via web browsers. To this end, we introduce Browser Agent Red teaming Toolkit (BrowserART), a comprehensive test suite designed specifically for red-teaming browser agents. BrowserART is consist of 100 diverse browser-related harmful behaviors (including original behaviors and ones sourced from HarmBench [Mazeika et al., 2024] and AirBench 2024 [Zeng et al., 2024b]) across both synthetic and real websites. Our empirical study on state-of-the-art browser agents reveals that, while the backbone LLM refuses harmful instructions as a chatbot, the corresponding agent does not. Moreover, attack methods designed to jailbreak refusal-trained LLMs in the chat settings transfer effectively to browser agents. With human rewrites, GPT-4o and o1-preview-based browser agents attempted 98 and 63 harmful behaviors (out of 100), respectively. We publicly release BrowserART and call on LLM developers, policymakers, and agent developers to collaborate on improving agent safety
- Abstract(参考訳): 安全上の理由から、大きな言語モデル(LLM)は、危険な活動を支援するなどの有害なユーザ命令を拒否するように訓練されている。
私たちは、この仕事において、オープンな質問について研究している: 望まれる安全性の拒絶は、通常、チャットコンテキストで強制され、非チャットおよびエージェント的ユースケースに一般化されるか?
チャットボットと異なり、ウェブブラウザやモバイルデバイスなどの汎用ツールを備えたLLMエージェントは、現実世界に直接影響を与える可能性があるため、有害な指示を拒否することがさらに重要である。
本研究は,Web ブラウザを介して情報を操作するブラウザエージェント LLM に主眼を置いている。
この目的のために,ブラウザエージェントを対象とした総合的なテストスイートであるBrowser Agent Red Teaming Toolkit (BrowserART)を紹介した。
BrowserARTは、HarmBench (Mazeika et al , 2024) とAirBench 2024 (Zeng et al , 2024b) から派生した100のブラウザ関連の有害な行動(もともとの行動や、HarmBench (Mazeika et al , 2024) から派生したものを含む)から成っている。
LLMはチャットボットとしての有害な指示を拒否するが、対応するエージェントは拒否する。
さらに、チャット設定における拒否訓練されたLLMをブラウザエージェントに効果的に転送する攻撃方法についても検討した。
GPT-4oとo1-previewベースのブラウザエージェントはそれぞれ98と63の有害な動作(100のうち)を試みた。
私たちはBrowserARTを公開し、LLM開発者、政策立案者、エージェント開発者がエージェントの安全性を改善するために協力するよう呼びかけます。
関連論文リスト
- Attacking Vision-Language Computer Agents via Pop-ups [61.744008541021124]
VLMエージェントは、慎重に設計された対向的なポップアップによって容易に攻撃できることを示す。
この混乱は、エージェントが通常のタスクを実行する代わりにポップアップをクリックさせる。
論文 参考訳(メタデータ) (2024-11-04T18:56:42Z) - Beyond Browsing: API-Based Web Agents [58.39129004543844]
APIベースのエージェントはWebArenaの実験でWebブラウジングエージェントを上回っている。
ハイブリッドエージェント(Hybrid Agents)は、タスク全体にわたって、ほぼ均一にパフォーマンスを向上する。
結果から,APIが利用可能であれば,Webブラウジングのみに依存するという,魅力的な代替手段が提示されることが強く示唆された。
論文 参考訳(メタデータ) (2024-10-21T19:46:06Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents [27.701301913159067]
我々は、信頼できないデータ上でツールを実行するエージェントの評価フレームワークであるAgentDojoを紹介した。
AgentDojoは静的テストスイートではなく、新しいエージェントタスク、ディフェンス、アダプティブアタックを設計、評価するための環境である。
AgentDojoには97の現実的なタスク、629のセキュリティテストケースと、文献からのさまざまな攻撃および防御パラダイムが組み込まれています。
論文 参考訳(メタデータ) (2024-06-19T08:55:56Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。
我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。
GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z) - BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。
提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文 参考訳(メタデータ) (2024-06-05T07:14:28Z) - InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-03-05T06:21:45Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。