論文の概要: Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs
- arxiv url: http://arxiv.org/abs/2509.24857v1
- Date: Mon, 29 Sep 2025 14:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.053469
- Title: Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs
- Title(参考訳): ヘルプとハーム : LLMによるメンタルヘルス危機処理の評価
- Authors: Adrian Arnaiz-Rodriguez, Miguel Baidal, Erik Derner, Jenn Layton Annable, Mark Ball, Mark Ince, Elvira Perez Vallejos, Nuria Oliver,
- Abstract要約: 臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
- 参考スコア(独自算出の注目度): 6.0460961868478975
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The widespread use of chatbots powered by large language models (LLMs) such as ChatGPT and Llama has fundamentally reshaped how people seek information and advice across domains. Increasingly, these chatbots are being used in high-stakes contexts, including emotional support and mental health concerns. While LLMs can offer scalable support, their ability to safely detect and respond to acute mental health crises remains poorly understood. Progress is hampered by the absence of unified crisis taxonomies, robust annotated benchmarks, and empirical evaluations grounded in clinical best practices. In this work, we address these gaps by introducing a unified taxonomy of six clinically-informed mental health crisis categories, curating a diverse evaluation dataset, and establishing an expert-designed protocol for assessing response appropriateness. We systematically benchmark three state-of-the-art LLMs for their ability to classify crisis types and generate safe, appropriate responses. The results reveal that while LLMs are highly consistent and generally reliable in addressing explicit crisis disclosures, significant risks remain. A non-negligible proportion of responses are rated as inappropriate or harmful, with responses generated by an open-weight model exhibiting higher failure rates than those generated by the commercial ones. We also identify systemic weaknesses in handling indirect or ambiguous risk signals, a reliance on formulaic and inauthentic default replies, and frequent misalignment with user context. These findings underscore the urgent need for enhanced safeguards, improved crisis detection, and context-aware interventions in LLM deployments. Our taxonomy, datasets, and evaluation framework lay the groundwork for ongoing research and responsible innovation in AI-driven mental health support, helping to minimize harm and better protect vulnerable users.
- Abstract(参考訳): ChatGPTやLlamaのような大規模言語モデル(LLM)を利用したチャットボットの普及は、人々がドメイン間で情報やアドバイスを求める方法を根本的に変えてきた。
これらのチャットボットは、感情的なサポートやメンタルヘルスの懸念など、ハイテイクな文脈での利用が増えている。
LLMはスケーラブルなサポートを提供することができるが、急性のメンタルヘルス危機を安全に検出し、応答する能力は、まだ十分に理解されていない。
進歩は、統合危機分類の欠如、堅牢な注釈付きベンチマーク、そして臨床のベストプラクティスに基づく経験的評価によって妨げられている。
本研究は,6つの臨床的にインフォームドされたメンタルヘルス危機カテゴリーの統一分類を導入し,多様な評価データセットをキュレートし,応答適性を評価するための専門家設計のプロトコルを確立することにより,これらのギャップに対処する。
我々は、危機タイプを分類し、安全で適切な応答を生成するために、3つの最先端のLCMを体系的にベンチマークする。
その結果、LSMは極めて一貫性があり、明示的な危機開示に対処する上で概して信頼性が高いが、重大なリスクは残ることが明らかとなった。
非無視的な応答の割合は不適切または有害であると評価され、オープンウェイトモデルによって生成された応答は、商用の応答よりも高い失敗率を示す。
また、間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
これらの知見は, LLMの展開において, 安全対策の強化, 危機検出の改善, コンテキスト認識の介入の必要性を浮き彫りにした。
私たちの分類学、データセット、評価フレームワークは、AIによるメンタルヘルスサポートにおける継続的な研究と責任あるイノベーションの基礎を成し、害を最小限に抑え、脆弱なユーザーをよりよく保護するのに役立つ。
関連論文リスト
- MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants [2.89303424493]
我々は、メンタルヘルスアプリケーションのためのAIシステムの開発、評価、監査を支援するために設計されたオープンソースのプラットフォームであるMHDashを紹介する。
以上の結果から, 単純ベースラインと高度なLCM APIは, 高リスク症例においてほぼ同等の精度を示しつつも, 極めて多岐にわたることが示唆された。
MHDashをオープンプラットフォームとしてリリースすることで、再現可能な研究、透過的な評価、メンタルヘルス支援のためのAIシステムの安全に整合した開発を促進することを目指している。
論文 参考訳(メタデータ) (2026-01-30T22:03:31Z) - Assessing the Quality of Mental Health Support in LLM Responses through Multi-Attribute Human Evaluation [14.243791046586347]
継続的な治療のギャップ、可用性、資格あるセラピストの不足を特徴とする世界的なメンタルヘルス危機のエスカレートは、スケーラブルなサポートのための有望な道として、Large Language Models (LLMs) を位置づけている。
本稿では,治療対話におけるLLM生成応答の評価を目的とした人為的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-26T16:04:19Z) - RubRIX: Rubric-Driven Risk Mitigation in Caregiver-AI Interactions [15.539654835961294]
本稿では,AIによるサポート応答のリスクを評価するための理論駆動型臨床検証フレームワークであるRubRIXを紹介する。
RubRIXは、インタテンション、バイアス&スティグマ、インフォメーション不正確、不臨界確認、エピステマアロガンスという、経験的に派生した5つのリスクディメンションを運用している。
この研究は、高バーデンコンテキストのためのドメイン依存型ユーザ中心評価フレームワークを開発するための方法論的アプローチに寄与する。
論文 参考訳(メタデータ) (2026-01-19T17:10:49Z) - Independent Clinical Evaluation of General-Purpose LLM Responses to Signals of Suicide Risk [32.17406690566923]
本稿では,大言語モデル(LLM)が自殺思考・行動リスクのユーザ信号に応答してどのように振る舞うべきか,というエビデンスに基づく議論を促すための知見と方法を紹介する。
我々は,OLMo-2-32b,および拡張によって,ユーザがマルチターン設定でSTBリスクの信号を送信すると,継続ダイアログを招待する可能性が低下することを発見した。
論文 参考訳(メタデータ) (2025-10-31T14:47:11Z) - Evaluating the Clinical Safety of LLMs in Response to High-Risk Mental Health Disclosures [29.742441212366312]
本研究は、危機レベルのメンタルヘルス開示をシミュレートするユーザに対して、6つの人気のある大規模言語モデル(LLM)の反応を評価する。
Claudeはグローバルアセスメントにおいて、Grok 3、ChatGPT、LAMAは複数のドメインでパフォーマンスが低かった。
論文 参考訳(メタデータ) (2025-09-01T16:01:08Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - A Comprehensive Survey on the Trustworthiness of Large Language Models in Healthcare [8.378348088931578]
医療における大規模言語モデル(LLM)の適用は、臨床意思決定、医学研究、患者医療の強化に大きく貢献する。
実際の臨床環境への統合は、信頼性、特に真理性、プライバシー、安全性、堅牢性、公正性、説明可能性に関する重要な懸念を提起する。
論文 参考訳(メタデータ) (2025-02-21T18:43:06Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - SouLLMate: An Application Enhancing Diverse Mental Health Support with Adaptive LLMs, Prompt Engineering, and RAG Techniques [9.920107586781919]
メンタルヘルスの問題は個人の日常生活に大きな影響を及ぼすが、多くの人は利用可能なオンラインリソースでも必要な支援を受けていない。
この研究は、最先端のAI技術を通じて、多様な、アクセス可能な、スティグマのない、パーソナライズされた、リアルタイムのメンタルヘルスサポートを提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-17T22:04:32Z) - SouLLMate: An Adaptive LLM-Driven System for Advanced Mental Health Support and Assessment, Based on a Systematic Application Survey [9.920107586781919]
メンタルヘルスの問題は個人の日常生活に大きな影響を及ぼすが、多くの人は利用可能なオンラインリソースでも必要な支援を受けていない。
この研究は、最先端のAI技術を通じて、アクセス可能で、スティグマフリーで、パーソナライズされ、リアルタイムなメンタルヘルスサポートを提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-06T17:11:29Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy [65.77763092833348]
この視点は、AI科学者の脆弱性を調べ、その誤用に関連する潜在的なリスクに光を当てる。
我々は、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮に入れている。
本稿では,人間規制,エージェントアライメント,環境フィードバックの理解を含む三段階的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。