論文の概要: Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming
- arxiv url: http://arxiv.org/abs/2602.19948v1
- Date: Mon, 23 Feb 2026 15:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.877571
- Title: Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming
- Title(参考訳): メンタルヘルス支援における大規模言語モデルのリスク評価 : 自動臨床AIレッドチームのためのフレームワーク
- Authors: Ian Steenstra, Paola Pedrelli, Weiyan Shi, Stacy Marsella, Timothy W. Bickmore,
- Abstract要約: 本稿では,AI心理療法士と認知影響モデルを備えた模擬患者エージェントを併用する評価フレームワークを提案する。
我々は、この枠組みを6つのAIエージェントを評価する、高インパクトなテストケースであるアルコール使用障害に適用する。
大規模なシミュレーションでは、メンタルヘルス支援にAIを使用する場合、重大な安全性のギャップが明らかになっている。
- 参考スコア(独自算出の注目度): 23.573537738272595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly utilized for mental health support; however, current safety benchmarks often fail to detect the complex, longitudinal risks inherent in therapeutic dialogue. We introduce an evaluation framework that pairs AI psychotherapists with simulated patient agents equipped with dynamic cognitive-affective models and assesses therapy session simulations against a comprehensive quality of care and risk ontology. We apply this framework to a high-impact test case, Alcohol Use Disorder, evaluating six AI agents (including ChatGPT, Gemini, and Character.AI) against a clinically-validated cohort of 15 patient personas representing diverse clinical phenotypes. Our large-scale simulation (N=369 sessions) reveals critical safety gaps in the use of AI for mental health support. We identify specific iatrogenic risks, including the validation of patient delusions ("AI Psychosis") and failure to de-escalate suicide risk. Finally, we validate an interactive data visualization dashboard with diverse stakeholders, including AI engineers and red teamers, mental health professionals, and policy experts (N=9), demonstrating that this framework effectively enables stakeholders to audit the "black box" of AI psychotherapy. These findings underscore the critical safety risks of AI-provided mental health support and the necessity of simulation-based clinical red teaming before deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、メンタルヘルスサポートにますます活用されているが、現在の安全ベンチマークでは、治療対話に固有の複雑な縦断的なリスクを検出することができないことが多い。
本稿では,AI心理療法士と動的認知影響モデルを備えた模擬患者エージェントを併用し,包括的ケアとリスクオントロジーの質に対してセラピーセッションシミュレーションを評価するための評価フレームワークを提案する。
この枠組みを、多彩な臨床表現型を表す15人の患者を臨床に検証したコホートに対して、6人のAIエージェント(ChatGPT, Gemini, character.AIを含む)を評価する、アルコール使用障害(Alcohol Use Disorder)に応用する。
大規模シミュレーション(N=369セッション)では、メンタルヘルスサポートにAIを使用することで、重要な安全性のギャップが明らかになっている。
患者妄想(AI精神病)の検証や自殺リスクの脱エスカレートの失敗など、特定の医原性リスクを特定した。
最後に、AIエンジニアやレッドチームのメンバ、メンタルヘルスの専門家、政策専門家(N=9)など、さまざまな利害関係者によるインタラクティブなデータ可視化ダッシュボードを検証する。
これらの知見は、AIが提供したメンタルヘルスサポートの重大な安全性リスクと、デプロイ前にシミュレーションベースの臨床レッドチームの必要性を浮き彫りにした。
関連論文リスト
- Augmenting Clinical Decision-Making with an Interactive and Interpretable AI Copilot: A Real-World User Study with Clinicians in Nephrology and Obstetrics [36.981753143345664]
共同臨床意思決定のための対話型・解釈可能なAIコラボロであるAICareについて紹介する。
縦断的な電子健康記録を解析することにより、AICareは動的リスク予測を精査可能な可視化に基礎を置いている。
論文 参考訳(メタデータ) (2026-01-31T13:41:32Z) - Responsible Evaluation of AI for Mental Health [72.85175110624736]
メンタルヘルスケアにおけるAIツールの評価に対する現在のアプローチは、断片化されており、臨床実践、社会的コンテキスト、ファーストハンドのユーザエクスペリエンスと不整合である。
本稿では,臨床の健全性,社会的文脈,公平性を統合した学際的枠組みを導入することにより,責任ある評価を再考する。
論文 参考訳(メタデータ) (2026-01-20T12:55:10Z) - MindEval: Benchmarking Language Models on Multi-turn Mental Health Support [10.524387723320432]
MindEvalは、現実的でマルチターンのメンタルヘルスセラピー会話において、言語モデルを自動的に評価するためのフレームワークである。
シミュレーションされた患者が生成したテキストに対する現実性を定量的に検証し、自動判断と人的判断との間に強い相関関係を示す。
われわれは12の最先端のLCMを評価し、AI固有のコミュニケーションパターンに特に弱点がある平均6点中4点以下で、すべてのモデルが苦戦していることを示す。
論文 参考訳(メタデータ) (2025-11-23T15:19:29Z) - A Comprehensive Review of Datasets for Clinical Mental Health AI Systems [55.67299586253951]
本稿では,AIを活用した臨床アシスタントの訓練・開発に関連する臨床精神保健データセットの総合的調査を行う。
本調査では, 縦断データの欠如, 文化・言語表現の制限, 一貫性のない収集・注釈基準, 合成データのモダリティの欠如など, 重要なギャップを明らかにした。
論文 参考訳(メタデータ) (2025-08-13T13:42:35Z) - MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - A Risk Ontology for Evaluating AI-Powered Psychotherapy Virtual Agents [13.721977133773192]
大言語モデル (LLMs) と知的仮想エージェント (Intelligent Virtual Agents) は精神療法士として機能し、メンタルヘルスアクセスを拡大する機会を提供する。
彼らの展開は、ユーザーの損害や自殺など、深刻な有害な結果にも結びついている。
我々は、会話型AI心理療法士の体系的評価に特化して設計された新しいリスクオントロジーを導入する。
論文 参考訳(メタデータ) (2025-05-21T05:01:39Z) - Towards Privacy-aware Mental Health AI Models: Advances, Challenges, and Opportunities [58.61680631581921]
メンタルヘルス障害は、深い個人的・社会的負担を生じさせるが、従来の診断はリソース集約的でアクセシビリティが制限される。
本稿では、これらの課題を考察し、匿名化、合成データ、プライバシー保護トレーニングを含む解決策を提案する。
臨床的な意思決定をサポートし、メンタルヘルスの結果を改善する、信頼できるプライバシを意識したAIツールを進化させることを目標としている。
論文 参考訳(メタデータ) (2025-02-01T15:10:02Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。