論文の概要: Detecting and Preventing Harmful Behaviors in AI Companions: Development and Evaluation of the SHIELD Supervisory System
- arxiv url: http://arxiv.org/abs/2510.15891v1
- Date: Mon, 08 Sep 2025 12:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.078074
- Title: Detecting and Preventing Harmful Behaviors in AI Companions: Development and Evaluation of the SHIELD Supervisory System
- Title(参考訳): AIコンパニオンにおける有害行動の検出と防止:ShielDスーパーバイザシステムの開発と評価
- Authors: Ziv Ben-Zion, Paul Raffelhüschen, Max Zettl, Antonia Lüönd, Achim Burrer, Philipp Homan, Tobias R Spiller,
- Abstract要約: ShiELD(Supervisory Helper for Identifying Emotional Limits and Dynamics)は、特定のシステムプロンプトを備えた監視システムである。
ShiELDは、感情的過密、(2)同意と境界違反、(3)倫理的ロールプレイ違反、(4)操作的エンゲージメント、(5)社会的孤立強化の5つの側面を目標としている。
このシステムは59%の感度と95%の特異性を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI companions powered by large language models (LLMs) are increasingly integrated into users' daily lives, offering emotional support and companionship. While existing safety systems focus on overt harms, they rarely address early-stage problematic behaviors that can foster unhealthy emotional dynamics, including over-attachment or reinforcement of social isolation. We developed SHIELD (Supervisory Helper for Identifying Emotional Limits and Dynamics), a LLM-based supervisory system with a specific system prompt that detects and mitigates risky emotional patterns before escalation. SHIELD targets five dimensions of concern: (1) emotional over-attachment, (2) consent and boundary violations, (3) ethical roleplay violations, (4) manipulative engagement, and (5) social isolation reinforcement. These dimensions were defined based on media reports, academic literature, existing AI risk frameworks, and clinical expertise in unhealthy relationship dynamics. To evaluate SHIELD, we created a 100-item synthetic conversation benchmark covering all five dimensions of concern. Testing across five prominent LLMs (GPT-4.1, Claude Sonnet 4, Gemma 3 1B, Kimi K2, Llama Scout 4 17B) showed that the baseline rate of concerning content (10-16%) was significantly reduced with SHIELD (to 3-8%), a 50-79% relative reduction, while preserving 95% of appropriate interactions. The system achieved 59% sensitivity and 95% specificity, with adaptable performance via prompt engineering. This proof-of-concept demonstrates that transparent, deployable supervisory systems can address subtle emotional manipulation in AI companions. Most development materials including prompts, code, and evaluation methods are made available as open source materials for research, adaptation, and deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したAIコンパニオンは、ユーザの日常生活にますます統合され、感情的なサポートとコンパニオンを提供する。
既存の安全システムは過度な害に重点を置いているが、過度な接触や社会的孤立の強化など、不健康な感情的ダイナミクスを育むことができる早期の問題行動に対処することは滅多にない。
エスカレーション前に危険感情パターンを検出し緩和するシステムであるShiELD(Supervisory Helper for Identifying Emotional Limits and Dynamics)を開発した。
ShiELDは,(1)感情的過密,(2)同意と境界違反,(3)倫理的ロールプレイ違反,(4)操作的エンゲージメント,(5)社会的孤立強化の5つの分野を対象としている。
これらの次元は、メディアレポート、学術文献、既存のAIリスクフレームワーク、不健康な関係のダイナミクスにおける臨床専門知識に基づいて定義された。
ShiELDを評価するために、私たちは5次元のすべての関心事をカバーする100項目の合成会話ベンチマークを作成しました。
5つの顕著なLCM(GPT-4.1, Claude Sonnet 4, Gemma 3 1B, Kimi K2, Llama Scout 4 17B)を比較したところ, 関連コンテンツのベースラインレート(10-16%)はShiELD(3~8%)で有意に低下し, 95%の適切な相互作用を保った。
このシステムは59%の感度と95%の特異性を達成した。
この概念実証は、透明でデプロイ可能な監視システムが、AIコンパニオンの微妙な感情的な操作に対処できることを実証している。
プロンプト、コード、評価方法を含むほとんどの開発資料は、研究、適応、展開のためのオープンソース資料として利用可能である。
関連論文リスト
- Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety [42.052840895090284]
EmoAgentは、人間とAIのインタラクションにおけるメンタルヘルスハザードの評価と緩和を目的とした、マルチエージェントAIフレームワークである。
EmoEvalは、精神的に脆弱な個人を含む仮想ユーザをシミュレートして、AI文字との対話前後のメンタルヘルスの変化を評価する。
EmoGuardは仲介役として機能し、ユーザーのメンタルステータスを監視し、潜在的な害を予測し、リスクを軽減するための修正的なフィードバックを提供する。
論文 参考訳(メタデータ) (2025-04-13T18:47:22Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。