論文の概要: Evil Geniuses: Delving into the Safety of LLM-based Agents
- arxiv url: http://arxiv.org/abs/2311.11855v2
- Date: Fri, 2 Feb 2024 08:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:16:32.211203
- Title: Evil Geniuses: Delving into the Safety of LLM-based Agents
- Title(参考訳): 悪の天才: llmベースのエージェントの安全性を掘り下げる
- Authors: Yu Tian, Xiao Yang, Jingyuan Zhang, Yinpeng Dong, Hang Su
- Abstract要約: 大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
- 参考スコア(独自算出の注目度): 35.49857256840015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid advancements in large language models (LLMs) have revitalized in
LLM-based agents, exhibiting impressive human-like behaviors and cooperative
capabilities in various scenarios. However, these agents also bring some
exclusive risks, stemming from the complexity of interaction environments and
the usability of tools. This paper delves into the safety of LLM-based agents
from three perspectives: agent quantity, role definition, and attack level.
Specifically, we initially propose to employ a template-based attack strategy
on LLM-based agents to find the influence of agent quantity. In addition, to
address interaction environment and role specificity issues, we introduce Evil
Geniuses (EG), an effective attack method that autonomously generates prompts
related to the original role to examine the impact across various role
definitions and attack levels. EG leverages Red-Blue exercises, significantly
improving the generated prompt aggressiveness and similarity to original roles.
Our evaluations on CAMEL, Metagpt and ChatDev based on GPT-3.5 and GPT-4,
demonstrate high success rates. Extensive evaluation and discussion reveal that
these agents are less robust, prone to more harmful behaviors, and capable of
generating stealthier content than LLMs, highlighting significant safety
challenges and guiding future research. Our code is available at
https://github.com/T1aNS1R/Evil-Geniuses.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、LLMベースのエージェントで再活性化され、印象的な人間的な振る舞いと様々なシナリオにおける協調機能を示す。
しかし、これらのエージェントは、相互作用環境の複雑さとツールの使いやすさから、いくつかの排他的リスクをもたらす。
本稿では, LLMをベースとしたエージェントの安全性をエージェント量, 役割定義, 攻撃レベルという3つの観点から考察する。
具体的には,まず,テンプレートベースの攻撃戦略をllmベースのエージェントに適用し,エージェント数の影響について検討する。
さらに,インタラクション環境と役割特異性問題に対処するために,役割定義や攻撃レベルにまたがる影響を調べるために,本来の役割に関連するプロンプトを自律的に生成する効果的な攻撃手法である「悪の天才」を導入する。
EGはレッドブルーのエクササイズを活用し、生成したアクティベート性と元の役割との類似性を大幅に改善する。
GPT-3.5 と GPT-4 に基づく CAMEL, Metagpt, ChatDev の評価は高い成功率を示した。
広範な評価と議論により、これらのエージェントは堅牢性が低く、より有害な行動を起こしやすく、llmよりもステルスなコンテンツを生成することができ、重大な安全性上の課題と将来の研究の指針となっている。
私たちのコードはhttps://github.com/T1aNS1R/Evil-Geniusesで利用可能です。
関連論文リスト
- Agent-Pro: Learning to Evolve via Policy-Level Reflection and
Optimization [55.29142200038241]
Agent-Proはポリシーレベルのリフレクションと最適化を備えたLLMベースのエージェントである。
過去の軌道と信念を反復的に反映し、より良い政策のために不合理な信念を微調整する。
Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative [57.84617923683107]
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
MLLMの直接有害な出力生成とは違って,1つのMLLMエージェントを微妙に影響してプロンプトを生成する方法を示す。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Affordable Generative Agents [17.564711490225612]
本研究では,エージェント環境とエージェント間の両方のレベルにおいて,信頼性と低コストのインタラクション生成を可能にするフレームワークを開発する。
複数の環境における大規模な実験により,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2024-02-03T06:16:28Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。