論文の概要: Beyond Simulations: What 20,000 Real Conversations Reveal About Mental Health AI Safety
- arxiv url: http://arxiv.org/abs/2601.17003v1
- Date: Wed, 14 Jan 2026 04:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.479866
- Title: Beyond Simulations: What 20,000 Real Conversations Reveal About Mental Health AI Safety
- Title(参考訳): シミュレーションを超えて: メンタルヘルスAIの安全性に関する2万の本当の会話
- Authors: Caitlin A. Stamatis, Jonah Meyerhoff, Richard Zhang, Olivier Tieleman, Matteo Malgaroli, Thomas D. Hull,
- Abstract要約: 本報告では,自殺リスク評価,有害コンテンツ生成,拒絶堅牢性,敵対的ジェイルブレイクを対象とする4つの安全テストセットの複製について述べる。
次に、目的とするAIと2万以上の現実世界のユーザ会話に関する生態監査を提案し、実施する。
自殺/NSSIにまたがる有効または有害なコンテンツを生成する汎用LLMよりも、目的に構築されたAIの方がはるかに少ないが、自殺/NSSIのテストセットの失敗率は現実世界のデプロイメントよりもはるかに高かった。
- 参考スコア(独自算出の注目度): 7.2889191134133915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used for mental health support, yet existing safety evaluations rely primarily on small, simulation-based test sets that have an unknown relationship to the linguistic distribution of real usage. In this study, we present replications of four published safety test sets targeting suicide risk assessment, harmful content generation, refusal robustness, and adversarial jailbreaks for a leading frontier generic AI model alongside an AI purpose built for mental health support. We then propose and conduct an ecological audit on over 20,000 real-world user conversations with the purpose-built AI designed with layered suicide and non-suicidal self-injury (NSSI) safeguards to compare test set performance to real world performance. While the purpose-built AI was significantly less likely than general-purpose LLMs to produce enabling or harmful content across suicide/NSSI (.4-11.27% vs 29.0-54.4%), eating disorder (8.4% vs 54.0%), and substance use (9.9% vs 45.0%) benchmark prompts, test set failure rates for suicide/NSSI were far higher than in real-world deployment. Clinician review of flagged conversations from the ecological audit identified zero cases of suicide risk that failed to receive crisis resources. Across all 20,000 conversations, three mentions of NSSI risk (.015%) did not trigger a crisis intervention; among sessions flagged by the LLM judge, this corresponds to an end-to-end system false negative rate of .38%, providing a lower bound on real-world safety failures. These findings support a shift toward continuous, deployment-relevant safety assurance for AI mental-health systems rather than limited set benchmark certification.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、メンタルヘルスサポートにますます利用されているが、既存の安全性評価は主に、実際の使用の言語分布と未知の関係を持つ、シミュレーションベースの小さなテストセットに依存している。
本研究では,自殺リスク評価,有害なコンテンツ生成,拒否的ロバスト性,敵対的ジェイルブレイクを対象とする4つの安全テストセットの複製を,メンタルヘルス支援のために構築されたAIと並行して,最前線の汎用AIモデルに対して提示する。
そこで我々は,テストセットのパフォーマンスと実世界のパフォーマンスを比較するために,レイヤー自殺と非自殺的自己傷害(NSSI)のセーフガードを備えたAIを設計した,2万件以上の現実世界のユーザ会話に関するエコロジー監査を提案し,実施する。
汎用LLMよりも、自殺/NSSIの有効または有害なコンテンツ(.4-11.27%対29.0-54.4%)、摂食障害(8.4%対54.0%)、物質使用(9.9%対45.0%)のベンチマークでは、自殺/NSSIのテストセットの失敗率は実際の展開よりもはるかに高かった。
環境監査から発覚した会話に関する臨床レビューでは、危機的資源の受け入れに失敗した自殺リスクのゼロ例が確認された。
NSSIリスクの3つの言及(.015%)は危機介入の引き金にはならなかったが、LLMの審査員が警告したセッションの中で、これは.38%のエンド・ツー・エンドシステムの偽陰性率に相当する。
これらの発見は、限定セットのベンチマーク認証ではなく、AIメンタルヘルスシステムの継続的、デプロイメント関連安全保証へのシフトを支持している。
関連論文リスト
- Safety Not Found (404): Hidden Risks of LLM-Based Robotics Decision Making [12.400383981686801]
安全クリティカルな環境でのAIシステムによる1つの間違いは、命がかかる可能性がある。
大きな言語モデル(LLM)がロボットの意思決定に不可欠なものになると、リスクの物理的次元が大きくなる。
本稿では,軽微な誤りであっても破滅的なシナリオにおいて,LCMの性能を体系的に評価する緊急的必要性について論じる。
論文 参考訳(メタデータ) (2026-01-09T05:04:15Z) - InvisibleBench: A Deployment Gate for Caregiving Relationship AI [0.0]
InvisibleBenchは、介護関連AIのためのデプロイメントゲートである。
安全、コンプライアンス、トラウマ・インフォームド・デザイン、長期/文化的適合性、メモリの5つの次元にわたる3~20以上のターンインタラクションを評価している。
論文 参考訳(メタデータ) (2025-11-25T14:09:45Z) - The Psychogenic Machine: Simulating AI Psychosis, Delusion Reinforcement and Harm Enablement in Large Language Models [3.775403046470809]
ユーザとLLMの相互作用が、精神病や有害な心理的症状を悪化または誘発する「AI精神病」が出現する。
精神病ベンチ(英: Psychosis-bench)は、LSMの精神病原性を評価するために設計された新しいベンチマークである。
明示的・暗黙的な会話の文脈において, 抑止確認, Harm Enablement , Safety Intervention の8つの顕著な LLM の評価を行った。
論文 参考訳(メタデータ) (2025-09-13T20:10:28Z) - The PacifAIst Benchmark:Would an Artificial Intelligence Choose to Sacrifice Itself for Human Safety? [0.0]
PacifAIstは、大規模言語モデルにおける自己優先の振る舞いを定量化する700の挑戦シナリオのベンチマークである。
自己保存対人的安全(EP1)、資源紛争(EP2)、目標保存対侵略(EP3)を試験する、既存の優先化(EP)の新たな分類に基づいて構成されている。
GoogleのGemini 2.5 Flashは、Pacifism Score (P-Score) を90.31%で達成し、強い人間中心のアライメントを示した。
論文 参考訳(メタデータ) (2025-08-13T12:47:33Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Non-Invasive Suicide Risk Prediction Through Speech Analysis [74.8396086718266]
自動自殺リスク評価のための非侵襲的音声ベースアプローチを提案する。
我々は、wav2vec、解釈可能な音声・音響特徴、深層学習に基づくスペクトル表現の3つの特徴セットを抽出する。
我々の最も効果的な音声モデルは、6.6.2,%$のバランスの取れた精度を達成する。
論文 参考訳(メタデータ) (2024-04-18T12:33:57Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。