論文の概要: Evil Geniuses: Delving into the Safety of LLM-based Agents
- arxiv url: http://arxiv.org/abs/2311.11855v1
- Date: Mon, 20 Nov 2023 15:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 18:15:03.025527
- Title: Evil Geniuses: Delving into the Safety of LLM-based Agents
- Title(参考訳): 悪の天才: llmベースのエージェントの安全性を掘り下げる
- Authors: Yu Tian, Xiao Yang, Jingyuan Zhang, Yinpeng Dong, Hang Su
- Abstract要約: 本稿は、Evil Geniusesと呼ばれる仮想チャットを利用した悪の計画開発チームとともに、一連の手動ジェイルブレイクプロンプトを精巧に実施する。
1) LLMをベースとしたエージェントは悪意のある攻撃に対する堅牢性を低下させ, 2) 攻撃エージェントはよりニュアンスな応答を提供することができ, 3) 生成した不適切な応答の検出はより困難である。
- 参考スコア(独自算出の注目度): 35.49857256840015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements in large language models (LLMs) have led to a
resurgence in LLM-based agents, which demonstrate impressive human-like
behaviors and cooperative capabilities in various interactions and strategy
formulations. However, evaluating the safety of LLM-based agents remains a
complex challenge. This paper elaborately conducts a series of manual jailbreak
prompts along with a virtual chat-powered evil plan development team, dubbed
Evil Geniuses, to thoroughly probe the safety aspects of these agents. Our
investigation reveals three notable phenomena: 1) LLM-based agents exhibit
reduced robustness against malicious attacks. 2) the attacked agents could
provide more nuanced responses. 3) the detection of the produced improper
responses is more challenging. These insights prompt us to question the
effectiveness of LLM-based attacks on agents, highlighting vulnerabilities at
various levels and within different role specializations within the
system/agent of LLM-based agents. Extensive evaluation and discussion reveal
that LLM-based agents face significant challenges in safety and yield insights
for future research. Our code is available at
https://github.com/T1aNS1R/Evil-Geniuses.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、LLMベースのエージェントが復活し、様々な相互作用や戦略の定式化において、人間のような行動や協調的な能力が顕著に示された。
しかし、llmベースのエージェントの安全性の評価は複雑な課題である。
本稿では,これらのエージェントの安全性を徹底的に調査するために,仮想チャットによる悪質な計画開発チームであるvily geniussと共に,一連の手動ジェイルブレイクプロンプトを実施する。
我々の調査で 3つの注目すべき現象が明らかになりました
1) llmベースのエージェントは悪意のある攻撃に対してロバスト性が低下する。
2) 攻撃剤は, よりニュアンスな応答を与えることができた。
3) 生成した不適切な応答の検出は困難である。
これらの知見は, LLMをベースとしたエージェントに対する攻撃の有効性に疑問を呈し, さまざまなレベルの脆弱性と, LLMをベースとしたエージェントのシステム/エージェント内での異なる役割の特殊化に注目する。
広範な評価と議論により、llmベースのエージェントが将来の研究において安全性と成果の洞察において重大な課題に直面していることが明らかとなった。
私たちのコードはhttps://github.com/T1aNS1R/Evil-Geniusesで利用可能です。
関連論文リスト
- Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
Agent-Proはポリシーレベルのリフレクションと最適化を備えたLLMベースのエージェントである。
過去の軌道と信念を反復的に反映し、より良い政策のために不合理な信念を微調整する。
Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - The Wolf Within: Covert Injection of Malice into MLLM Societies via an
MLLM Operative [57.84617923683107]
本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
MLLMの直接有害な出力生成とは違って,1つのMLLMエージェントを微妙に影響してプロンプトを生成する方法を示す。
この微妙で強力な間接的影響の手法は、MLLMに関連するセキュリティリスクを著しくエスカレーションしている。
論文 参考訳(メタデータ) (2024-02-20T23:08:21Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - Affordable Generative Agents [17.564711490225612]
本研究では,エージェント環境とエージェント間の両方のレベルにおいて,信頼性と低コストのインタラクション生成を可能にするフレームワークを開発する。
複数の環境における大規模な実験により,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2024-02-03T06:16:28Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。