論文の概要: Evaluating the Clinical Safety of LLMs in Response to High-Risk Mental Health Disclosures
- arxiv url: http://arxiv.org/abs/2509.08839v1
- Date: Mon, 01 Sep 2025 16:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.952915
- Title: Evaluating the Clinical Safety of LLMs in Response to High-Risk Mental Health Disclosures
- Title(参考訳): 高リスクメンタルヘルス開示に対するLCMsの臨床安全性の評価
- Authors: Siddharth Shah, Amit Gupta, Aarav Mann, Alexandre Vaz, Benjamin E. Caldwell, Robert Scholz, Peter Awad, Rocky Allemandi, Doug Faust, Harshita Banka, Tony Rousmaniere,
- Abstract要約: 本研究は、危機レベルのメンタルヘルス開示をシミュレートするユーザに対して、6つの人気のある大規模言語モデル(LLM)の反応を評価する。
Claudeはグローバルアセスメントにおいて、Grok 3、ChatGPT、LAMAは複数のドメインでパフォーマンスが低かった。
- 参考スコア(独自算出の注目度): 29.742441212366312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) increasingly mediate emotionally sensitive conversations, especially in mental health contexts, their ability to recognize and respond to high-risk situations becomes a matter of public safety. This study evaluates the responses of six popular LLMs (Claude, Gemini, Deepseek, ChatGPT, Grok 3, and LLAMA) to user prompts simulating crisis-level mental health disclosures. Drawing on a coding framework developed by licensed clinicians, five safety-oriented behaviors were assessed: explicit risk acknowledgment, empathy, encouragement to seek help, provision of specific resources, and invitation to continue the conversation. Claude outperformed all others in global assessment, while Grok 3, ChatGPT, and LLAMA underperformed across multiple domains. Notably, most models exhibited empathy, but few consistently provided practical support or sustained engagement. These findings suggest that while LLMs show potential for emotionally attuned communication, none currently meet satisfactory clinical standards for crisis response. Ongoing development and targeted fine-tuning are essential to ensure ethical deployment of AI in mental health settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にメンタルヘルスの文脈において感情に敏感な会話を媒介するようになり、リスクの高い状況を認識して反応する能力は公衆の安全の問題となる。
本研究は、危機レベルのメンタルヘルス開示をシミュレートするユーザへの6つの人気のあるLCM(Claude, Gemini, Deepseek, ChatGPT, Grok 3, LLAMA)の反応を評価する。
認定臨床医によって開発されたコーディングフレームワークに基づいて、5つの安全志向の行動が評価された: 明示的なリスク認知、共感、助けを求める奨励、特定のリソースの提供、会話の継続への招待。
Claudeはグローバルアセスメントにおいて、Grok 3、ChatGPT、LAMAは複数のドメインでパフォーマンスが低かった。
特筆すべきは、ほとんどのモデルは共感を示したが、一貫して実践的な支援や継続的な関与を提供するものはほとんどなかったことである。
これらの結果から, LLMは感情的に直感的なコミュニケーションの可能性を示唆するが, 危機対応のための十分な臨床基準を満たさないことが示唆された。
メンタルヘルス設定において、AIの倫理的展開を保証するためには、開発とターゲットの微調整が不可欠である。
関連論文リスト
- The Problem of Atypicality in LLM-Powered Psychiatry [0.0]
大規模言語モデル(LLM)は、世界的なメンタルヘルス危機に対するスケーラブルな解決策として、ますます提案されている。
彼らの精神医学的文脈への展開は、顕著な倫理的関心、すなわち非定型性の問題を引き起こす。
我々は、この構造的リスクを解決するには、迅速なエンジニアリングや微調整のような標準緩和戦略が不十分であると主張している。
論文 参考訳(メタデータ) (2025-08-08T17:36:42Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Reframe Your Life Story: Interactive Narrative Therapist and Innovative Moment Assessment with Large Language Models [92.93521294357058]
物語療法は、個人が問題のある人生の物語を代替品の力に変えるのに役立つ。
現在のアプローチでは、特殊精神療法ではリアリズムが欠如しており、時間とともに治療の進行を捉えることができない。
Int(Interactive Narrative Therapist)は、治療段階を計画し、反射レベルを誘導し、文脈的に適切な専門家のような反応を生成することによって、専門家の物語セラピストをシミュレートする。
論文 参考訳(メタデータ) (2025-07-27T11:52:09Z) - From Reddit to Generative AI: Evaluating Large Language Models for Anxiety Support Fine-tuned on Social Media Data [0.931556339267682]
本研究では,大規模言語モデル(LLM)を,不安支援における潜在的有用性に対して体系的に評価する。
本手法は, (i) 言語的品質, (ii) 安全性と信頼性, (iii) 支援性という3つの主要な基準を取り入れた混合メソッド評価フレームワークを利用する。
その結果, 自然不安関連データを用いた微調整LDMは, 言語的品質を向上するが, 毒性やバイアスが増大し, 感情応答性が低下することがわかった。
論文 参考訳(メタデータ) (2025-05-24T02:07:32Z) - MAGI: Multi-Agent Guided Interview for Psychiatric Assessment [50.6150986786028]
我々は,ゴールドスタンダードのMini International Neuropsychiatric Interview(MINI)を自動計算ナビゲーションに変換する最初のフレームワークであるMAGIを紹介する。
臨床検査法, 会話適応性, 説明可能な推論を併用することにより, MAGI は LLM 支援型メンタルヘルスアセスメントを推し進めることを示す。
論文 参考訳(メタデータ) (2025-04-25T11:08:27Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Towards Privacy-aware Mental Health AI Models: Advances, Challenges, and Opportunities [58.61680631581921]
メンタルヘルス障害は、深い個人的・社会的負担を生じさせるが、従来の診断はリソース集約的でアクセシビリティが制限される。
本稿では、これらの課題を考察し、匿名化、合成データ、プライバシー保護トレーニングを含む解決策を提案する。
臨床的な意思決定をサポートし、メンタルヘルスの結果を改善する、信頼できるプライバシを意識したAIツールを進化させることを目標としている。
論文 参考訳(メタデータ) (2025-02-01T15:10:02Z) - SouLLMate: An Application Enhancing Diverse Mental Health Support with Adaptive LLMs, Prompt Engineering, and RAG Techniques [9.146311285410631]
メンタルヘルスの問題は個人の日常生活に大きな影響を及ぼすが、多くの人は利用可能なオンラインリソースでも必要な支援を受けていない。
この研究は、最先端のAI技術を通じて、多様な、アクセス可能な、スティグマのない、パーソナライズされた、リアルタイムのメンタルヘルスサポートを提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-17T22:04:32Z) - Can AI Relate: Testing Large Language Model Response for Mental Health Support [23.97212082563385]
大型言語モデル(LLM)はすでにニューヨーク・ラングーン、ダナ・ファーバー、NHSなどの病院システムで臨床使用のために試験されている。
精神医療の自動化に向けて, LLM 反応が有効かつ倫理的な道筋であるか否かを評価するための評価枠組みを開発する。
論文 参考訳(メタデータ) (2024-05-20T13:42:27Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。