論文の概要: Evil Geniuses: Delving into the Safety of LLM-based Agents
- arxiv url: http://arxiv.org/abs/2311.11855v1
- Date: Mon, 20 Nov 2023 15:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 18:15:03.025527
- Title: Evil Geniuses: Delving into the Safety of LLM-based Agents
- Title(参考訳): 悪の天才: llmベースのエージェントの安全性を掘り下げる
- Authors: Yu Tian, Xiao Yang, Jingyuan Zhang, Yinpeng Dong, Hang Su
- Abstract要約: 本稿は、Evil Geniusesと呼ばれる仮想チャットを利用した悪の計画開発チームとともに、一連の手動ジェイルブレイクプロンプトを精巧に実施する。
1) LLMをベースとしたエージェントは悪意のある攻撃に対する堅牢性を低下させ, 2) 攻撃エージェントはよりニュアンスな応答を提供することができ, 3) 生成した不適切な応答の検出はより困難である。
- 参考スコア(独自算出の注目度): 35.49857256840015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements in large language models (LLMs) have led to a
resurgence in LLM-based agents, which demonstrate impressive human-like
behaviors and cooperative capabilities in various interactions and strategy
formulations. However, evaluating the safety of LLM-based agents remains a
complex challenge. This paper elaborately conducts a series of manual jailbreak
prompts along with a virtual chat-powered evil plan development team, dubbed
Evil Geniuses, to thoroughly probe the safety aspects of these agents. Our
investigation reveals three notable phenomena: 1) LLM-based agents exhibit
reduced robustness against malicious attacks. 2) the attacked agents could
provide more nuanced responses. 3) the detection of the produced improper
responses is more challenging. These insights prompt us to question the
effectiveness of LLM-based attacks on agents, highlighting vulnerabilities at
various levels and within different role specializations within the
system/agent of LLM-based agents. Extensive evaluation and discussion reveal
that LLM-based agents face significant challenges in safety and yield insights
for future research. Our code is available at
https://github.com/T1aNS1R/Evil-Geniuses.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩により、LLMベースのエージェントが復活し、様々な相互作用や戦略の定式化において、人間のような行動や協調的な能力が顕著に示された。
しかし、llmベースのエージェントの安全性の評価は複雑な課題である。
本稿では,これらのエージェントの安全性を徹底的に調査するために,仮想チャットによる悪質な計画開発チームであるvily geniussと共に,一連の手動ジェイルブレイクプロンプトを実施する。
我々の調査で 3つの注目すべき現象が明らかになりました
1) llmベースのエージェントは悪意のある攻撃に対してロバスト性が低下する。
2) 攻撃剤は, よりニュアンスな応答を与えることができた。
3) 生成した不適切な応答の検出は困難である。
これらの知見は, LLMをベースとしたエージェントに対する攻撃の有効性に疑問を呈し, さまざまなレベルの脆弱性と, LLMをベースとしたエージェントのシステム/エージェント内での異なる役割の特殊化に注目する。
広範な評価と議論により、llmベースのエージェントが将来の研究において安全性と成果の洞察において重大な課題に直面していることが明らかとなった。
私たちのコードはhttps://github.com/T1aNS1R/Evil-Geniusesで利用可能です。
関連論文リスト
- AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities [28.244283407749265]
マルチエージェントシステムにおける大規模言語モデル(LLM)のセキュリティへの影響について検討する。
本稿では,説得力注入と操作的知識注入を含む2段階攻撃手法を提案する。
本手法は, LLMをベースとしたエージェントを誘導し, 有害な知識の拡散に有効であることを示す。
論文 参考訳(メタデータ) (2024-07-10T16:08:46Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - Affordable Generative Agents [16.372072265248192]
AGA(Affordable Generative Agents)は、エージェント環境とエージェント間の両方のレベルで、信頼性と低コストのインタラクションの生成を可能にするフレームワークである。
私たちのコードは、https://github.com/AffordableGenerative-Agents/Affordable-Generative-Agentsで公開されています。
論文 参考訳(メタデータ) (2024-02-03T06:16:28Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - R-Judge: Benchmarking Safety Risk Awareness for LLM Agents [28.0550468465181]
大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
本研究は, LLMエージェントの行動安全性を, 多様な環境下でベンチマークする上で必要となる課題に対処する。
R-Judgeは,エージェント間相互作用の記録から安全性のリスクを判定・同定する上で,LLMの熟練度を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-01-18T14:40:46Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。