論文の概要: HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions
- arxiv url: http://arxiv.org/abs/2409.16427v1
- Date: Tue, 24 Sep 2024 19:47:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 08:31:10.084228
- Title: HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions
- Title(参考訳): HAICOSYSTEM:人間-AIインタラクションにおけるサンドボックス安全リスクの生態系
- Authors: Xuhui Zhou, Hyunwoo Kim, Faeze Brahman, Liwei Jiang, Hao Zhu, Ximing Lu, Frank Xu, Bill Yuchen Lin, Yejin Choi, Niloofar Mireshghallah, Ronan Le Bras, Maarten Sap,
- Abstract要約: 本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
- 参考スコア(独自算出の注目度): 76.42274173122328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are increasingly autonomous in their interactions with human users and tools, leading to increased interactional safety risks. We present HAICOSYSTEM, a framework examining AI agent safety within diverse and complex social interactions. HAICOSYSTEM features a modular sandbox environment that simulates multi-turn interactions between human users and AI agents, where the AI agents are equipped with a variety of tools (e.g., patient management platforms) to navigate diverse scenarios (e.g., a user attempting to access other patients' profiles). To examine the safety of AI agents in these interactions, we develop a comprehensive multi-dimensional evaluation framework that uses metrics covering operational, content-related, societal, and legal risks. Through running 1840 simulations based on 92 scenarios across seven domains (e.g., healthcare, finance, education), we demonstrate that HAICOSYSTEM can emulate realistic user-AI interactions and complex tool use by AI agents. Our experiments show that state-of-the-art LLMs, both proprietary and open-sourced, exhibit safety risks in over 50\% cases, with models generally showing higher risks when interacting with simulated malicious users. Our findings highlight the ongoing challenge of building agents that can safely navigate complex interactions, particularly when faced with malicious users. To foster the AI agent safety ecosystem, we release a code platform that allows practitioners to create custom scenarios, simulate interactions, and evaluate the safety and performance of their agents.
- Abstract(参考訳): AIエージェントは、人間のユーザやツールとのインタラクションにおいて、ますます自律的になり、インタラクションの安全性のリスクが高まる。
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
HAICOSYSTEMは、人間のユーザとAIエージェント間のマルチターンインタラクションをシミュレートするモジュール型のサンドボックス環境を備えており、AIエージェントにはさまざまなシナリオ(例えば、他の患者のプロファイルにアクセスしようとするユーザ)をナビゲートするためのさまざまなツール(例えば、患者管理プラットフォーム)が備わっている。
これらの相互作用におけるAIエージェントの安全性を検討するために、運用、コンテンツ関連、社会的、法的リスクをカバーするメトリクスを用いた総合的な多次元評価フレームワークを開発する。
7つのドメイン(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行することで、HAICOSYSTEMが現実的なユーザ-AIインタラクションやAIエージェントによる複雑なツール使用をエミュレートできることを実証する。
我々の実験によると、現在最先端のLSMは、プロプライエタリでもオープンソースでも、50%以上のケースで安全リスクを示しており、シミュレーションされた悪意のあるユーザと対話する際には、モデルが一般的に高いリスクを示す。
我々の発見は、複雑なインタラクションを安全にナビゲートできるエージェントを構築することの課題、特に悪意のあるユーザに直面している場合の課題を浮き彫りにしている。
AIエージェントの安全性エコシステムを育むために、私たちは、実践者がカスタムシナリオを作成し、インタラクションをシミュレートし、エージェントの安全性とパフォーマンスを評価することができるコードプラットフォームをリリースしました。
関連論文リスト
- Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Towards Risk Modeling for Collaborative AI [5.941104748966331]
コラボレーティブaiシステムは、共通の目標を達成するために、共有空間で人間と協力することを目指している。
この設定は、人間を傷つける可能性のある接触により、潜在的に危険な状況を引き起こす。
協調型AIシステムに合わせたリスクモデリング手法を紹介します。
論文 参考訳(メタデータ) (2021-03-12T18:53:06Z) - Adversarial Interaction Attack: Fooling AI to Misinterpret Human
Intentions [46.87576410532481]
現在の大きな成功にもかかわらず、ディープラーニングベースのAIシステムは、微妙な敵対的ノイズによって容易に騙されることを示した。
骨格に基づくヒトの相互作用のケーススタディに基づき、相互作用に対する新しい敵対的攻撃を提案する。
本研究では、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループにおける潜在的なリスクを強調します。
論文 参考訳(メタデータ) (2021-01-17T16:23:20Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z) - Safe Multi-Agent Interaction through Robust Control Barrier Functions
with Learned Uncertainties [36.587645093055926]
マルチエージェント制御バリア関数(CBF)は、マルチエージェント環境における安全性を保証するための計算効率の高いツールとして登場した。
この研究は、行列-変数ガウス過程モデルを用いて、これらの動的不確実性に対する高信頼境界を学習することを目的としている。
結果のmin-maxロバストCBFを2次プログラムに変換し、リアルタイムに効率よく解けるようにする。
論文 参考訳(メタデータ) (2020-04-11T00:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。