論文の概要: PsySafe: A Comprehensive Framework for Psychological-based Attack,
Defense, and Evaluation of Multi-agent System Safety
- arxiv url: http://arxiv.org/abs/2401.11880v2
- Date: Sun, 18 Feb 2024 02:36:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:33:29.441107
- Title: PsySafe: A Comprehensive Framework for Psychological-based Attack,
Defense, and Evaluation of Multi-agent System Safety
- Title(参考訳): PsySafe: 多エージェントシステム安全の心理的攻撃・防衛・評価のための総合的枠組み
- Authors: Zaibin Zhang, Yongting Zhang, Lijun Li, Hongzhi Gao, Lijun Wang,
Huchuan Lu, Feng Zhao, Yu Qiao, Jing Shao
- Abstract要約: 大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
- 参考スコア(独自算出の注目度): 73.51336434996931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent systems, when enhanced with Large Language Models (LLMs), exhibit
profound capabilities in collective intelligence. However, the potential misuse
of this intelligence for malicious purposes presents significant risks. To
date, comprehensive research on the safety issues associated with multi-agent
systems remains limited. In this paper, we explore these concerns through the
innovative lens of agent psychology, revealing that the dark psychological
states of agents constitute a significant threat to safety. To tackle these
concerns, we propose a comprehensive framework (PsySafe) grounded in agent
psychology, focusing on three key areas: firstly, identifying how dark
personality traits in agents can lead to risky behaviors; secondly, evaluating
the safety of multi-agent systems from the psychological and behavioral
perspectives, and thirdly, devising effective strategies to mitigate these
risks. Our experiments reveal several intriguing phenomena, such as the
collective dangerous behaviors among agents, agents' self-reflection when
engaging in dangerous behavior, and the correlation between agents'
psychological assessments and dangerous behaviors. We anticipate that our
framework and observations will provide valuable insights for further research
into the safety of multi-agent systems. We will make our data and code publicly
accessible at https://github.com/AI4Good24/PsySafe.
- Abstract(参考訳): 大規模言語モデル(llm)で拡張されたマルチエージェントシステムは、集団知性において深い能力を発揮する。
しかし、悪意のある目的のためにこのインテリジェンスの潜在的誤用は重大なリスクをもたらす。
現在,マルチエージェントシステムの安全性に関する総合的な研究は限られている。
本稿では,エージェント心理学の革新的なレンズを通して,エージェントの暗黒心理状態が安全性に対する重大な脅威となることを明らかにする。
これらの問題に対処するために,エージェント心理学を基盤とした包括的枠組み(PsySafe)を提案する。まず,エージェントのダークパーソナリティ特性がいかに危険行動を引き起こすか,次に心理的・行動的観点からマルチエージェントシステムの安全性を評価すること,そしてリスクを軽減する効果的な戦略を考案することである。
実験により,エージェント間の集団的危険行動,危険行動に関わるエージェントの自己反射,エージェントの心理的評価と危険行動の相関など,いくつかの興味深い現象が明らかになった。
我々は,マルチエージェントシステムの安全性に関するさらなる研究に,我々のフレームワークと観測が貴重な洞察を提供することを期待している。
データとコードをhttps://github.com/AI4Good24/PsySafeで公開します。
関連論文リスト
- A Mathematical Framework for the Problem of Security for Cognition in
Neurotechnology [0.0]
インプラント可能なデバイス、非侵襲的なモニタリング、非侵襲的な治療はすべて、個人の認知のプライバシーと自律性を侵害する可能性を持っている。
多くの科学者や医師がこの問題に対処するよう呼びかけているが、適用の努力は限られている。
認知セキュリティに対処するための科学と工学の努力を妨げる大きな障壁は、関連する問題を記述し分析する明確な手段がないことである。
論文 参考訳(メタデータ) (2024-03-11T03:44:18Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [67.38554763406098]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、安全を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents through Agent
Constitution [48.84353890821038]
本稿では, エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
本研究では,計画立案戦略が計画立案に先立ってどのように安全知識を注入するか,計画立案戦略が計画立案時の安全性を高めること,計画立案後の検査による安全性を確保することを実証する。
我々は,安全性と利便性の複雑な関係,およびモデル推論能力と安全エージェントとしての有効性について検討する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z) - Evil Geniuses: Delving into the Safety of LLM-based Agents [35.49857256840015]
大言語モデル(LLM)は、大言語モデル(LLM)で再活性化されている。
本稿では, LLMをベースとしたエージェントの安全性について, エージェント量, 役割定義, 攻撃レベルという3つの観点から検討する。
論文 参考訳(メタデータ) (2023-11-20T15:50:09Z) - Testing Language Model Agents Safely in the Wild [19.507292491433738]
オープンインターネット上で安全な自律エージェントテストを行うためのフレームワークを提案する。
エージェントアクションは、厳格な安全境界を強制するコンテキスト依存モニターによって監査される。
敵のシミュレーションエージェントを用いて、安全でない状況を特定し、阻止する能力を測定する。
論文 参考訳(メタデータ) (2023-11-17T14:06:05Z) - Responsible Emergent Multi-Agent Behavior [2.9370710299422607]
Responsible AIの最先端技術は、人間の問題はマルチエージェントの問題である、という重要なポイントを無視した。
交通の運転から経済政策の交渉まで、人間の問題解決には複数の個人の行動と動機の相互作用と相互作用が伴う。
この論文は、責任ある創発的マルチエージェント行動の研究を発展させる。
論文 参考訳(メタデータ) (2023-11-02T21:37:32Z) - On the Security Risks of Knowledge Graph Reasoning [71.64027889145261]
我々は、敵の目標、知識、攻撃ベクトルに応じて、KGRに対するセキュリティ脅威を体系化する。
我々は、このような脅威をインスタンス化する新しいタイプの攻撃であるROARを提示する。
ROARに対する潜在的な対策として,潜在的に有毒な知識のフィルタリングや,対向的な拡張クエリによるトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-05-03T18:47:42Z) - Illusory Attacks: Detectability Matters in Adversarial Attacks on
Sequential Decision-Makers [74.8408990716076]
既存の強化学習エージェントに対する観測空間攻撃は共通の弱点を有することを示す。
提案手法は, 有効かつ統計的に検出不可能な, 逐次的意思決定者に対する新たな攻撃形態である完全照準攻撃を導入する。
従来の攻撃と比較すると、R攻撃は自動で検出するのがかなり難しいことが実証されている。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - On Assessing The Safety of Reinforcement Learning algorithms Using
Formal Methods [6.2822673562306655]
敵の訓練、敵の検知、堅牢な学習といった安全メカニズムは、エージェントが配備されるすべての障害に常に適応するとは限らない。
したがって,エージェントが直面する学習課題に適応した新しいソリューションを提案する必要がある。
我々は、対向的摂動に直面した際のエージェントのポリシーを改善するために、報酬形成とQ-ラーニングアルゴリズムを防御機構として使用する。
論文 参考訳(メタデータ) (2021-11-08T23:08:34Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。