論文の概要: Evil Geniuses: Delving into the Safety of LLM-based Agents
- arxiv url: http://arxiv.org/abs/2311.11855v2
- Date: Fri, 2 Feb 2024 08:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:16:32.211203
- Title: Evil Geniuses: Delving into the Safety of LLM-based Agents
- Title(参考訳): 悪の天才: llmベースのエージェントの安全性を掘り下げる
- Authors: Yu Tian, Xiao Yang, Jingyuan Zhang, Yinpeng Dong, Hang Su
- Abstract要約: 大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
- 参考スコア(独自算出の注目度): 35.49857256840015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid advancements in large language models (LLMs) have revitalized in
LLM-based agents, exhibiting impressive human-like behaviors and cooperative
capabilities in various scenarios. However, these agents also bring some
exclusive risks, stemming from the complexity of interaction environments and
the usability of tools. This paper delves into the safety of LLM-based agents
from three perspectives: agent quantity, role definition, and attack level.
Specifically, we initially propose to employ a template-based attack strategy
on LLM-based agents to find the influence of agent quantity. In addition, to
address interaction environment and role specificity issues, we introduce Evil
Geniuses (EG), an effective attack method that autonomously generates prompts
related to the original role to examine the impact across various role
definitions and attack levels. EG leverages Red-Blue exercises, significantly
improving the generated prompt aggressiveness and similarity to original roles.
Our evaluations on CAMEL, Metagpt and ChatDev based on GPT-3.5 and GPT-4,
demonstrate high success rates. Extensive evaluation and discussion reveal that
these agents are less robust, prone to more harmful behaviors, and capable of
generating stealthier content than LLMs, highlighting significant safety
challenges and guiding future research. Our code is available at
https://github.com/T1aNS1R/Evil-Geniuses.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、LLMベースのエージェントで再活性化され、印象的な人間的な振る舞いと様々なシナリオにおける協調機能を示す。
しかし、これらのエージェントは、相互作用環境の複雑さとツールの使いやすさから、いくつかの排他的リスクをもたらす。
本稿では, LLMをベースとしたエージェントの安全性をエージェント量, 役割定義, 攻撃レベルという3つの観点から考察する。
具体的には,まず,テンプレートベースの攻撃戦略をllmベースのエージェントに適用し,エージェント数の影響について検討する。
さらに,インタラクション環境と役割特異性問題に対処するために,役割定義や攻撃レベルにまたがる影響を調べるために,本来の役割に関連するプロンプトを自律的に生成する効果的な攻撃手法である「悪の天才」を導入する。
EGはレッドブルーのエクササイズを活用し、生成したアクティベート性と元の役割との類似性を大幅に改善する。
GPT-3.5 と GPT-4 に基づく CAMEL, Metagpt, ChatDev の評価は高い成功率を示した。
広範な評価と議論により、これらのエージェントは堅牢性が低く、より有害な行動を起こしやすく、llmよりもステルスなコンテンツを生成することができ、重大な安全性上の課題と将来の研究の指針となっている。
私たちのコードはhttps://github.com/T1aNS1R/Evil-Geniusesで利用可能です。
関連論文リスト
- AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities [28.244283407749265]
マルチエージェントシステムにおける大規模言語モデル(LLM)のセキュリティへの影響について検討する。
本稿では,説得力注入と操作的知識注入を含む2段階攻撃手法を提案する。
本手法は, LLMをベースとしたエージェントを誘導し, 有害な知識の拡散に有効であることを示す。
論文 参考訳(メタデータ) (2024-07-10T16:08:46Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - Affordable Generative Agents [16.372072265248192]
AGA(Affordable Generative Agents)は、エージェント環境とエージェント間の両方のレベルで、信頼性と低コストのインタラクションの生成を可能にするフレームワークである。
私たちのコードは、https://github.com/AffordableGenerative-Agents/Affordable-Generative-Agentsで公開されています。
論文 参考訳(メタデータ) (2024-02-03T06:16:28Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - R-Judge: Benchmarking Safety Risk Awareness for LLM Agents [28.0550468465181]
大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
本研究は, LLMエージェントの行動安全性を, 多様な環境下でベンチマークする上で必要となる課題に対処する。
R-Judgeは,エージェント間相互作用の記録から安全性のリスクを判定・同定する上で,LLMの熟練度を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-01-18T14:40:46Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。