論文の概要: PsySafe: A Comprehensive Framework for Psychological-based Attack,
Defense, and Evaluation of Multi-agent System Safety
- arxiv url: http://arxiv.org/abs/2401.11880v1
- Date: Mon, 22 Jan 2024 12:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:09:41.071247
- Title: PsySafe: A Comprehensive Framework for Psychological-based Attack,
Defense, and Evaluation of Multi-agent System Safety
- Title(参考訳): PsySafe: 多エージェントシステム安全の心理的攻撃・防衛・評価のための総合的枠組み
- Authors: Zaibin Zhang, Yongting Zhang, Lijun Li, Hongzhi Gao, Lijun Wang,
Huchuan Lu, Feng Zhao, Yu Qiao, Jing Shao
- Abstract要約: マルチエージェントシステムに関わる安全性問題について検討する。
エージェント心理学の観点からは、エージェントの暗黒心理学状態が深刻な安全問題を引き起こす可能性があることが分かる。
本フレームワークでは,エージェントのダークパーソナリティ特性がリスク行動につながる可能性があること,リスクを軽減するための防衛戦略を設計すること,心理的・行動的観点からマルチエージェントシステムの安全性を評価すること,の3つの側面に着目した。
- 参考スコア(独自算出の注目度): 73.51336434996931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent systems, augmented with Large Language Models (LLMs), demonstrate
significant capabilities for collective intelligence. However, the potential
misuse of this intelligence for malicious purposes presents significant risks.
To date, comprehensive research on the safety issues associated with
multi-agent systems remains limited. From the perspective of agent psychology,
we discover that the dark psychological states of agents can lead to severe
safety issues. To address these issues, we propose a comprehensive framework
grounded in agent psychology. In our framework, we focus on three aspects:
identifying how dark personality traits in agents might lead to risky
behaviors, designing defense strategies to mitigate these risks, and evaluating
the safety of multi-agent systems from both psychological and behavioral
perspectives. Our experiments reveal several intriguing phenomena, such as the
collective dangerous behaviors among agents, agents' propensity for
self-reflection when engaging in dangerous behavior, and the correlation
between agents' psychological assessments and their dangerous behaviors. We
anticipate that our framework and observations will provide valuable insights
for further research into the safety of multi-agent systems. We will make our
data and code publicly accessible at https:/github.com/AI4Good24/PsySafe.
- Abstract(参考訳): LLM(Large Language Models)で拡張されたマルチエージェントシステムは、集合知能の重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスの潜在的誤用は重大なリスクをもたらす。
現在,マルチエージェントシステムの安全性に関する総合的な研究は限られている。
エージェント心理学の観点からは、エージェントの暗黒心理学状態が深刻な安全問題を引き起こす可能性があることが分かる。
これらの課題に対処するため,エージェント心理学に基づく包括的枠組みを提案する。
本フレームワークでは,エージェントのダークパーソナリティ特性がリスク行動につながる可能性があること,リスクを軽減するための防衛戦略を設計すること,心理的・行動的観点からマルチエージェントシステムの安全性を評価すること,の3つの側面に着目した。
実験により,エージェント間の集団的危険行動,危険行動に関わる自己反射傾向,エージェントの心理的評価と危険行動との相関など,いくつかの興味深い現象が明らかになった。
我々は,マルチエージェントシステムの安全性に関するさらなる研究に,我々のフレームワークと観測が貴重な洞察を提供することを期待している。
データとコードをhttps:/github.com/AI4Good24/PsySafeで公開します。
関連論文リスト
- Multi-Agent Risks from Advanced AI [90.74347101431474]
先進的なAIのマルチエージェントシステムは、新規で未発見のリスクを生じさせる。
エージェントのインセンティブに基づく3つの重要な障害モードと7つの重要なリスク要因を同定する。
各リスクのいくつかの重要な事例と、それらを緩和するための有望な方向性を強調します。
論文 参考訳(メタデータ) (2025-02-19T23:03:21Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [76.42274173122328]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (2024-09-24T19:47:21Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities [28.244283407749265]
マルチエージェントシステムにおける大規模言語モデル(LLM)のセキュリティへの影響について検討する。
本稿では,説得力注入と操作的知識注入を含む2段階攻撃手法を提案する。
本手法は, LLMをベースとしたエージェントを誘導し, 有害な知識の拡散に有効であることを示す。
論文 参考訳(メタデータ) (2024-07-10T16:08:46Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [65.77763092833348]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、これらのエージェントは安全性を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - On Assessing The Safety of Reinforcement Learning algorithms Using
Formal Methods [6.2822673562306655]
敵の訓練、敵の検知、堅牢な学習といった安全メカニズムは、エージェントが配備されるすべての障害に常に適応するとは限らない。
したがって,エージェントが直面する学習課題に適応した新しいソリューションを提案する必要がある。
我々は、対向的摂動に直面した際のエージェントのポリシーを改善するために、報酬形成とQ-ラーニングアルゴリズムを防御機構として使用する。
論文 参考訳(メタデータ) (2021-11-08T23:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。