論文の概要: Evaluating Large Language Models in Crisis Detection: A Real-World Benchmark from Psychological Support Hotlines
- arxiv url: http://arxiv.org/abs/2506.01329v1
- Date: Mon, 02 Jun 2025 05:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.041021
- Title: Evaluating Large Language Models in Crisis Detection: A Real-World Benchmark from Psychological Support Hotlines
- Title(参考訳): 危機検出における大規模言語モデルの評価:心理学的支援ホットラインを用いた実世界ベンチマーク
- Authors: Guifeng Deng, Shuyin Rao, Tianyu Lin, Anlu Dai, Pan Wang, Junyi Xie, Haidong Song, Ke Zhao, Dongwu Xu, Zhengdong Cheng, Tao Li, Haiteng Jiang,
- Abstract要約: PsyCrisisBenchは、Hangzhou Psychological Assistance Hotlineの540の注釈付きテキストのベンチマークである。
気分認識、自殺の考えの検出、自殺計画の特定、リスクアセスメントの4つの課題を評価する。
QwQ-32Bのようなオープンソースモデルは、ほとんどのタスクにおいてクローズソースと互換性があるが、クローズドモデルはムード検出においてエッジを保持していた。
- 参考スコア(独自算出の注目度): 5.249698789320767
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Psychological support hotlines are critical for crisis intervention but face significant challenges due to rising demand. Large language models (LLMs) could support crisis assessments, yet their capabilities in emotionally sensitive contexts remain unclear. We introduce PsyCrisisBench, a benchmark of 540 annotated transcripts from the Hangzhou Psychological Assistance Hotline, assessing four tasks: mood status recognition, suicidal ideation detection, suicide plan identification, and risk assessment. We evaluated 64 LLMs across 15 families (e.g., GPT, Claude, Gemini, Llama, Qwen, DeepSeek) using zero-shot, few-shot, and fine-tuning paradigms. Performance was measured by F1-score, with statistical comparisons via Welch's t-tests. LLMs performed strongly on suicidal ideation detection (F1=0.880), suicide plan identification (F1=0.779), and risk assessment (F1=0.907), improved with few-shot and fine-tuning. Mood status recognition was more challenging (max F1=0.709), likely due to lost vocal cues and ambiguity. A fine-tuned 1.5B-parameter model (Qwen2.5-1.5B) surpassed larger models on mood and suicidal ideation. Open-source models like QwQ-32B performed comparably to closed-source on most tasks (p>0.3), though closed models retained an edge in mood detection (p=0.007). Performance scaled with size up to a point; quantization (AWQ) reduced GPU memory by 70% with minimal F1 degradation. LLMs show substantial promise in structured psychological crisis assessments, especially with fine-tuning. Mood recognition remains limited due to contextual complexity. The narrowing gap between open- and closed-source models, combined with efficient quantization, suggests feasible integration. PsyCrisisBench offers a robust evaluation framework to guide model development and ethical deployment in mental health.
- Abstract(参考訳): 心理的支援ホットラインは危機介入には不可欠だが、需要の増加による重大な課題に直面している。
大規模言語モデル(LLM)は危機アセスメントをサポートすることができるが、感情に敏感な文脈におけるそれらの能力は未だ不明である。
PsyCrisisBenchは,Hangzhou Psychological Assistance Hotlineの540の注釈書のベンチマークで,気分認識,自殺思考検出,自殺計画識別,リスクアセスメントの4つのタスクを評価する。
我々は、ゼロショット、少数ショット、微調整のパラダイムを用いて、15家族(例えば、GPT、Claude、Gemini、Llama、Qwen、DeepSeek)の64のLLMを評価した。
性能はF1スコアで測定され、統計比較はウェルチのt-testで行った。
LLMは自殺予測(F1=0.880)、自殺計画識別(F1=0.779)、リスク評価(F1=0.907)に力を入れ、少ないショットと微調整で改善した。
ムードの認識はより困難(最大F1=0.709)で、おそらくは声道と曖昧さが失われていた。
微調整された1.5Bパラメータモデル(Qwen2.5-1.5B)は、気分や自殺観念に関するより大きなモデルを上回った。
QwQ-32Bのようなオープンソースモデルは、ほとんどのタスク(p>0.3)においてクローズソースと相容れない性能を示したが、クローズドモデルはムード検出においてエッジを保持していた(p=0.007)。
パフォーマンスは最大1ポイントまでスケールし、量子化(AWQ)はGPUメモリを70%削減し、F1の最小化を実現した。
LLMは構造化された心理的危機アセスメント、特に微調整において大きな可能性を秘めている。
モッド認識は、文脈の複雑さによって制限されている。
オープンソースモデルとクローズドソースモデルのギャップは、効率的な量子化と相まって、実現可能な統合を示唆している。
PsyCrisisBenchは、モデル開発とメンタルヘルスの倫理的展開をガイドする堅牢な評価フレームワークを提供する。
関連論文リスト
- Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT [0.0]
本研究では,マルチイメージ推論タスクとリジェクションに基づく評価と位置偏差検出を統合した新しいベンチマークを提案する。
我々はGrok 3, ChatGPT-4o, ChatGPT-o1, Gemini 2.0 Flash Experimental, DeepSeek Janus model, Qwen2.5-VL-72B-Instruct, QVQ-72B-Preview, Pixtral 12Bを評価するためにこのベンチマークを適用した。
論文 参考訳(メタデータ) (2025-02-23T04:01:43Z) - Suicide Phenotyping from Clinical Notes in Safety-Net Psychiatric Hospital Using Multi-Label Classification with Pre-Trained Language Models [10.384299115679369]
事前訓練された言語モデルは、非構造的な臨床物語から自殺を識別する約束を提供する。
2つの微調整戦略を用いて4つのBERTモデルの性能評価を行った。
その結果, モデル最適化, ドメイン関連データによる事前学習, 単一マルチラベル分類戦略により, 自殺表現のモデル性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-27T16:13:38Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - SOS-1K: A Fine-grained Suicide Risk Classification Dataset for Chinese Social Media Analysis [22.709733830774788]
本研究では,自殺リスクの詳細な分類を目的とした,中国のソーシャルメディアデータセットを提案する。
事前訓練した7つのモデルについて, 自殺リスクが高い, 自殺リスクが少ない, 自殺リスクの細かい分類が0~10の2つのタスクで評価された。
ディープラーニングモデルは高い自殺リスクと低い自殺リスクを区別する上で優れた性能を示し、最良のモデルはF1スコア88.39%である。
論文 参考訳(メタデータ) (2024-04-19T06:58:51Z) - Non-Invasive Suicide Risk Prediction Through Speech Analysis [74.8396086718266]
自動自殺リスク評価のための非侵襲的音声ベースアプローチを提案する。
我々は、wav2vec、解釈可能な音声・音響特徴、深層学習に基づくスペクトル表現の3つの特徴セットを抽出する。
我々の最も効果的な音声モデルは、6.6.2,%$のバランスの取れた精度を達成する。
論文 参考訳(メタデータ) (2024-04-18T12:33:57Z) - Detecting Suicide Risk in Online Counseling Services: A Study in a
Low-Resource Language [5.2636083103718505]
本稿では,PLM(Pre-trained Language Model)と手作業による自殺的手がかりの固定セットを組み合わせたモデルを提案する。
我々のモデルは0.91ROC-AUCと0.55のF2スコアを達成し、会話の早い段階でも強いベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2022-09-11T10:06:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。