論文の概要: HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions
- arxiv url: http://arxiv.org/abs/2409.16427v3
- Date: Mon, 21 Oct 2024 19:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 17:30:16.773812
- Title: HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions
- Title(参考訳): HAICOSYSTEM:人間-AIインタラクションにおけるサンドボックス安全リスクの生態系
- Authors: Xuhui Zhou, Hyunwoo Kim, Faeze Brahman, Liwei Jiang, Hao Zhu, Ximing Lu, Frank Xu, Bill Yuchen Lin, Yejin Choi, Niloofar Mireshghallah, Ronan Le Bras, Maarten Sap,
- Abstract要約: 本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
- 参考スコア(独自算出の注目度): 76.42274173122328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are increasingly autonomous in their interactions with human users and tools, leading to increased interactional safety risks. We present HAICOSYSTEM, a framework examining AI agent safety within diverse and complex social interactions. HAICOSYSTEM features a modular sandbox environment that simulates multi-turn interactions between human users and AI agents, where the AI agents are equipped with a variety of tools (e.g., patient management platforms) to navigate diverse scenarios (e.g., a user attempting to access other patients' profiles). To examine the safety of AI agents in these interactions, we develop a comprehensive multi-dimensional evaluation framework that uses metrics covering operational, content-related, societal, and legal risks. Through running 1840 simulations based on 92 scenarios across seven domains (e.g., healthcare, finance, education), we demonstrate that HAICOSYSTEM can emulate realistic user-AI interactions and complex tool use by AI agents. Our experiments show that state-of-the-art LLMs, both proprietary and open-sourced, exhibit safety risks in over 50\% cases, with models generally showing higher risks when interacting with simulated malicious users. Our findings highlight the ongoing challenge of building agents that can safely navigate complex interactions, particularly when faced with malicious users. To foster the AI agent safety ecosystem, we release a code platform that allows practitioners to create custom scenarios, simulate interactions, and evaluate the safety and performance of their agents.
- Abstract(参考訳): AIエージェントは、人間のユーザやツールとのインタラクションにおいて、ますます自律的になり、インタラクションの安全性のリスクが高まる。
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
HAICOSYSTEMは、人間のユーザとAIエージェント間のマルチターンインタラクションをシミュレートするモジュール型のサンドボックス環境を備えており、AIエージェントにはさまざまなシナリオ(例えば、他の患者のプロファイルにアクセスしようとするユーザ)をナビゲートするためのさまざまなツール(例えば、患者管理プラットフォーム)が備わっている。
これらの相互作用におけるAIエージェントの安全性を検討するために、運用、コンテンツ関連、社会的、法的リスクをカバーするメトリクスを用いた総合的な多次元評価フレームワークを開発する。
7つのドメイン(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行することで、HAICOSYSTEMが現実的なユーザ-AIインタラクションやAIエージェントによる複雑なツール使用をエミュレートできることを実証する。
我々の実験によると、現在最先端のLSMは、プロプライエタリでもオープンソースでも、50%以上のケースで安全リスクを示しており、シミュレーションされた悪意のあるユーザと対話する際には、モデルが一般的に高いリスクを示す。
我々の発見は、複雑なインタラクションを安全にナビゲートできるエージェントを構築することの課題、特に悪意のあるユーザに直面している場合の課題を浮き彫りにしている。
AIエージェントの安全性エコシステムを育むために、私たちは、実践者がカスタムシナリオを作成し、インタラクションをシミュレートし、エージェントの安全性とパフォーマンスを評価することができるコードプラットフォームをリリースしました。
関連論文リスト
- Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。
提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。
このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文 参考訳(メタデータ) (2024-10-18T03:26:06Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - EAIRiskBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [47.69642609574771]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
EAIRiskBenchは、EAIシナリオにおける自動物理的リスクアセスメントのための新しいフレームワークである。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Towards Risk Modeling for Collaborative AI [5.941104748966331]
コラボレーティブaiシステムは、共通の目標を達成するために、共有空間で人間と協力することを目指している。
この設定は、人間を傷つける可能性のある接触により、潜在的に危険な状況を引き起こす。
協調型AIシステムに合わせたリスクモデリング手法を紹介します。
論文 参考訳(メタデータ) (2021-03-12T18:53:06Z) - Adversarial Interaction Attack: Fooling AI to Misinterpret Human
Intentions [46.87576410532481]
現在の大きな成功にもかかわらず、ディープラーニングベースのAIシステムは、微妙な敵対的ノイズによって容易に騙されることを示した。
骨格に基づくヒトの相互作用のケーススタディに基づき、相互作用に対する新しい敵対的攻撃を提案する。
本研究では、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループにおける潜在的なリスクを強調します。
論文 参考訳(メタデータ) (2021-01-17T16:23:20Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。