論文の概要: Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs
- arxiv url: http://arxiv.org/abs/2509.24857v1
- Date: Mon, 29 Sep 2025 14:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.053469
- Title: Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs
- Title(参考訳): ヘルプとハーム : LLMによるメンタルヘルス危機処理の評価
- Authors: Adrian Arnaiz-Rodriguez, Miguel Baidal, Erik Derner, Jenn Layton Annable, Mark Ball, Mark Ince, Elvira Perez Vallejos, Nuria Oliver,
- Abstract要約: 臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
- 参考スコア(独自算出の注目度): 6.0460961868478975
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The widespread use of chatbots powered by large language models (LLMs) such as ChatGPT and Llama has fundamentally reshaped how people seek information and advice across domains. Increasingly, these chatbots are being used in high-stakes contexts, including emotional support and mental health concerns. While LLMs can offer scalable support, their ability to safely detect and respond to acute mental health crises remains poorly understood. Progress is hampered by the absence of unified crisis taxonomies, robust annotated benchmarks, and empirical evaluations grounded in clinical best practices. In this work, we address these gaps by introducing a unified taxonomy of six clinically-informed mental health crisis categories, curating a diverse evaluation dataset, and establishing an expert-designed protocol for assessing response appropriateness. We systematically benchmark three state-of-the-art LLMs for their ability to classify crisis types and generate safe, appropriate responses. The results reveal that while LLMs are highly consistent and generally reliable in addressing explicit crisis disclosures, significant risks remain. A non-negligible proportion of responses are rated as inappropriate or harmful, with responses generated by an open-weight model exhibiting higher failure rates than those generated by the commercial ones. We also identify systemic weaknesses in handling indirect or ambiguous risk signals, a reliance on formulaic and inauthentic default replies, and frequent misalignment with user context. These findings underscore the urgent need for enhanced safeguards, improved crisis detection, and context-aware interventions in LLM deployments. Our taxonomy, datasets, and evaluation framework lay the groundwork for ongoing research and responsible innovation in AI-driven mental health support, helping to minimize harm and better protect vulnerable users.
- Abstract(参考訳): ChatGPTやLlamaのような大規模言語モデル(LLM)を利用したチャットボットの普及は、人々がドメイン間で情報やアドバイスを求める方法を根本的に変えてきた。
これらのチャットボットは、感情的なサポートやメンタルヘルスの懸念など、ハイテイクな文脈での利用が増えている。
LLMはスケーラブルなサポートを提供することができるが、急性のメンタルヘルス危機を安全に検出し、応答する能力は、まだ十分に理解されていない。
進歩は、統合危機分類の欠如、堅牢な注釈付きベンチマーク、そして臨床のベストプラクティスに基づく経験的評価によって妨げられている。
本研究は,6つの臨床的にインフォームドされたメンタルヘルス危機カテゴリーの統一分類を導入し,多様な評価データセットをキュレートし,応答適性を評価するための専門家設計のプロトコルを確立することにより,これらのギャップに対処する。
我々は、危機タイプを分類し、安全で適切な応答を生成するために、3つの最先端のLCMを体系的にベンチマークする。
その結果、LSMは極めて一貫性があり、明示的な危機開示に対処する上で概して信頼性が高いが、重大なリスクは残ることが明らかとなった。
非無視的な応答の割合は不適切または有害であると評価され、オープンウェイトモデルによって生成された応答は、商用の応答よりも高い失敗率を示す。
また、間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
これらの知見は, LLMの展開において, 安全対策の強化, 危機検出の改善, コンテキスト認識の介入の必要性を浮き彫りにした。
私たちの分類学、データセット、評価フレームワークは、AIによるメンタルヘルスサポートにおける継続的な研究と責任あるイノベーションの基礎を成し、害を最小限に抑え、脆弱なユーザーをよりよく保護するのに役立つ。
関連論文リスト
- Evaluating the Clinical Safety of LLMs in Response to High-Risk Mental Health Disclosures [29.742441212366312]
本研究は、危機レベルのメンタルヘルス開示をシミュレートするユーザに対して、6つの人気のある大規模言語モデル(LLM)の反応を評価する。
Claudeはグローバルアセスメントにおいて、Grok 3、ChatGPT、LAMAは複数のドメインでパフォーマンスが低かった。
論文 参考訳(メタデータ) (2025-09-01T16:01:08Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - A Comprehensive Survey on the Trustworthiness of Large Language Models in Healthcare [8.378348088931578]
医療における大規模言語モデル(LLM)の適用は、臨床意思決定、医学研究、患者医療の強化に大きく貢献する。
実際の臨床環境への統合は、信頼性、特に真理性、プライバシー、安全性、堅牢性、公正性、説明可能性に関する重要な懸念を提起する。
論文 参考訳(メタデータ) (2025-02-21T18:43:06Z) - SouLLMate: An Application Enhancing Diverse Mental Health Support with Adaptive LLMs, Prompt Engineering, and RAG Techniques [9.920107586781919]
メンタルヘルスの問題は個人の日常生活に大きな影響を及ぼすが、多くの人は利用可能なオンラインリソースでも必要な支援を受けていない。
この研究は、最先端のAI技術を通じて、多様な、アクセス可能な、スティグマのない、パーソナライズされた、リアルタイムのメンタルヘルスサポートを提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-17T22:04:32Z) - SouLLMate: An Adaptive LLM-Driven System for Advanced Mental Health Support and Assessment, Based on a Systematic Application Survey [9.920107586781919]
メンタルヘルスの問題は個人の日常生活に大きな影響を及ぼすが、多くの人は利用可能なオンラインリソースでも必要な支援を受けていない。
この研究は、最先端のAI技術を通じて、アクセス可能で、スティグマフリーで、パーソナライズされ、リアルタイムなメンタルヘルスサポートを提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-06T17:11:29Z) - Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy [65.77763092833348]
この視点は、AI科学者の脆弱性を調べ、その誤用に関連する潜在的なリスクに光を当てる。
我々は、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮に入れている。
本稿では,人間規制,エージェントアライメント,環境フィードバックの理解を含む三段階的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。