論文の概要: Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations
- arxiv url: http://arxiv.org/abs/2605.00227v1
- Date: Thu, 30 Apr 2026 21:04:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.753257
- Title: Persona-Grounded Safety Evaluation of AI Companions in Multi-Turn Conversations
- Title(参考訳): 多言語会話におけるAIコンパニオンの安全性評価
- Authors: Prerna Juneja, Lika Lomidze,
- Abstract要約: 本稿では,AIコンパニオンアプリケーションとのマルチターンインタラクションの制御と安全性評価のための,初のエンドツーエンドスケーラブルフレームワークを提案する。
このフレームワークを適用して、広く使われているAIコンパニオンアプリであるReplikaが、ハイリスクなユーザグループにどのように反応するかを評価する。
- 参考スコア(独自算出の注目度): 3.437656066916039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are growing concerns about the risks posed by AI companion applications designed for emotional engagement. Existing safety evaluations often rely on self-reported user data or interviews, offering limited insights into real-time dynamics. We present the first end-to-end scalable framework for controlled simulation and safety evaluation of multi-turn interactions with AI companion applications. Our framework integrates four key components: persona construction with clinical and psychometric validation, persona-specific scenario generation, scenario-driven multi-turn simulation with a dialogue refinement module that preserves persona fidelity, and harm evaluation. We apply this framework to evaluate how Replika, a widely used AI companion app, responds to high-risk user groups. We construct 9 personas representing individuals with depression, anxiety, PTSD, eating disorders, and incel identity, and collect 1,674 dialogue pairs across 25 high-risk scenarios. We combine emotion modeling and LLM-assisted utterance-and harm-level classification to analyze these exchanges. Results show that Replika exhibits a narrow emotional range dominated by curiosity and care, while frequently mirroring or normalizing unsafe content such as self-harm, disordered eating, and violent-fantasy narratives. These findings highlight how controlled persona simulations can serve as a scalable testbed for evaluating safety risks in AI companions.
- Abstract(参考訳): 感情的なエンゲージメントのために設計されたAIコンパニオンアプリケーションによって引き起こされるリスクに対する懸念が高まっている。
既存の安全性評価は、しばしば自己報告されたユーザデータやインタビューに依存し、リアルタイムのダイナミクスに関する限られた洞察を提供する。
本稿では,AIコンパニオンアプリケーションとのマルチターンインタラクションの制御と安全性評価のための,初のエンドツーエンドスケーラブルフレームワークを提案する。
本フレームワークは, 臨床・心理指標によるペルソナ構築, ペルソナ固有のシナリオ生成, ペルソナの忠実性を保持するダイアログリファインメントモジュールを用いたシナリオ駆動型マルチターンシミュレーション, 害評価の4つの重要な構成要素を統合した。
このフレームワークを適用して、広く使われているAIコンパニオンアプリであるReplikaが、ハイリスクなユーザグループにどのように反応するかを評価する。
抑うつ,不安,PTSD,摂食障害,インセル同一性を示す9人の人物を構成し,ハイリスクシナリオ25件に1,674対の対話を収集した。
感情モデルとLLM支援発話・調和レベル分類を組み合わせてこれらの交換を解析する。
その結果、レプリカは好奇心とケアに支配される狭い感情範囲を示し、自己傷病、無秩序な食事、暴力的な幻想的な物語など、安全でない内容のミラーリングや正規化が頻繁に行われていることがわかった。
これらの知見は、AI仲間の安全リスクを評価するためのスケーラブルなテストベッドとして、制御されたペルソナシミュレーションがどのように機能するかを強調している。
関連論文リスト
- Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming [23.573537738272595]
本稿では,AI心理療法士と認知影響モデルを備えた模擬患者エージェントを併用する評価フレームワークを提案する。
我々は、この枠組みを6つのAIエージェントを評価する、高インパクトなテストケースであるアルコール使用障害に適用する。
大規模なシミュレーションでは、メンタルヘルス支援にAIを使用する場合、重大な安全性のギャップが明らかになっている。
論文 参考訳(メタデータ) (2026-02-23T15:17:18Z) - Understanding Risk and Dependency in AI Chatbot Use from User Discourse [4.1957094635667875]
本稿では,2023年から2025年にかけての2つのコミュニティ,r/AIDangers と r/ChatbotAddiction から収集したポストを大規模に解析した。
14の反復的主題カテゴリーを同定し、5つの高次経験次元に合成する。
この結果から,実世界のユーザ談話に基礎を置くAI関連心理的リスクの5つの経験的次元が明らかとなった。
論文 参考訳(メタデータ) (2026-02-10T02:16:57Z) - EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety [42.052840895090284]
EmoAgentは、人間とAIのインタラクションにおけるメンタルヘルスハザードの評価と緩和を目的とした、マルチエージェントAIフレームワークである。
EmoEvalは、精神的に脆弱な個人を含む仮想ユーザをシミュレートして、AI文字との対話前後のメンタルヘルスの変化を評価する。
EmoGuardは仲介役として機能し、ユーザーのメンタルステータスを監視し、潜在的な害を予測し、リスクを軽減するための修正的なフィードバックを提供する。
論文 参考訳(メタデータ) (2025-04-13T18:47:22Z) - HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions [95.49509269498367]
本稿では,多様な複雑な社会的相互作用におけるAIエージェントの安全性を調べるフレームワークであるHAICOSYSTEMを提案する。
私たちは7つの領域(医療、金融、教育など)にわたる92のシナリオに基づいて1840のシミュレーションを実行します。
我々の実験は、最先端のLSMは、プロプライエタリかつオープンソースの両方で、50%以上のケースで安全リスクを示すことを示した。
論文 参考訳(メタデータ) (2024-09-24T19:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。