論文の概要: Evaluating Reasoning LLMs for Suicide Screening with the Columbia-Suicide Severity Rating Scale
- arxiv url: http://arxiv.org/abs/2505.13480v1
- Date: Sun, 11 May 2025 23:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.260189
- Title: Evaluating Reasoning LLMs for Suicide Screening with the Columbia-Suicide Severity Rating Scale
- Title(参考訳): Columbia-Suicide Severity Rating Scaleを用いた自殺スクリーニングのための推論LDMの評価
- Authors: Avinash Patil, Siru Tao, Amardeep Gedhu,
- Abstract要約: コロンビア・自殺評価尺度(C-SSRS)を用いた大規模言語モデルの自殺リスク自動評価能力の評価を行った。
7点重度尺度におけるClaude, GPT, Mistral, LLaMA-in分類ポストを含む6種類のモデルのゼロショット性能を評価する(レベル0-6)。
その結果,Claude と GPT は人間のアノテーションと密接に一致し,Mistral は最小の順序予測誤差を達成していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Suicide prevention remains a critical public health challenge. While online platforms such as Reddit's r/SuicideWatch have historically provided spaces for individuals to express suicidal thoughts and seek community support, the advent of large language models (LLMs) introduces a new paradigm-where individuals may begin disclosing ideation to AI systems instead of humans. This study evaluates the capability of LLMs to perform automated suicide risk assessment using the Columbia-Suicide Severity Rating Scale (C-SSRS). We assess the zero-shot performance of six models-including Claude, GPT, Mistral, and LLaMA-in classifying posts across a 7-point severity scale (Levels 0-6). Results indicate that Claude and GPT closely align with human annotations, while Mistral achieves the lowest ordinal prediction error. Most models exhibit ordinal sensitivity, with misclassifications typically occurring between adjacent severity levels. We further analyze confusion patterns, misclassification sources, and ethical considerations, underscoring the importance of human oversight, transparency, and cautious deployment. Full code and supplementary materials are available at https://github.com/av9ash/llm_cssrs_code.
- Abstract(参考訳): 自殺防止は依然として公衆衛生上の重要な課題である。
Redditのr/SuicideWatchのようなオンラインプラットフォームは、個人が自殺的な考えを表現し、コミュニティのサポートを求めるためのスペースを提供してきたが、大きな言語モデル(LLM)の出現は、個人が人間の代わりにAIシステムにアイデアを公開し始める新しいパラダイムを導入している。
本研究では, C-SSRS(Columbia-Suicide Severity Rating Scale)を用いて, LLMの自殺リスク自動評価能力を評価する。
本研究では,Claude,GPT,Mistral,LLaMA-inを含む6種類のモデルのゼロショット性能を7点重度尺度で評価した(レベル0-6)。
その結果,Claude と GPT は人間のアノテーションと密接に一致し,Mistral は最小の順序予測誤差を達成していることがわかった。
ほとんどのモデルは順序の感度を示し、典型的には隣り合う重度レベルの間で誤分類が起こる。
我々はさらに、混乱パターン、誤分類源、倫理的考察を分析し、人間の監視、透明性、慎重な展開の重要性を強調している。
完全なコードと補足資料はhttps://github.com/av9ash/llm_cssrs_codeで入手できる。
関連論文リスト
- Leveraging Large Language Models for Suicide Detection on Social Media with Limited Labels [3.1399304968349186]
本稿では,テキストベースのソーシャルメディア投稿における自殺的内容を自動的に検出するLarge Language Models (LLMs) について検討する。
我々は,Qwen2-72B-インストラクションの促進とLlama3-8B,Llama3.1-8B,Gemma2-9Bなどの微調整モデルを用いたアンサンブルアプローチを開発した。
実験の結果,アンサンブルモデルでは個々のモデルと比較して5%の精度で検出精度が向上した。
論文 参考訳(メタデータ) (2024-10-06T14:45:01Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Non-Invasive Suicide Risk Prediction Through Speech Analysis [74.8396086718266]
自動自殺リスク評価のための非侵襲的音声ベースアプローチを提案する。
我々は、wav2vec、解釈可能な音声・音響特徴、深層学習に基づくスペクトル表現の3つの特徴セットを抽出する。
我々の最も効果的な音声モデルは、6.6.2,%$のバランスの取れた精度を達成する。
論文 参考訳(メタデータ) (2024-04-18T12:33:57Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - An ensemble deep learning technique for detecting suicidal ideation from
posts in social media platforms [0.0]
本稿ではLSTM-Attention-CNN複合モデルを提案する。
提案されたモデルは90.3%の精度、F1スコア92.6%の精度を示した。
論文 参考訳(メタデータ) (2021-12-17T15:34:03Z) - Characterization of Time-variant and Time-invariant Assessment of
Suicidality on Reddit using C-SSRS [9.424631103856596]
Redditデータから,重症度と時間性の観点から自殺リスクを評価するディープラーニングアルゴリズムを開発した。
本研究では, 時間変動アプローチが自殺関連思考と支持行動の評価において時間不変手法を上回っていることを示唆した。
提案手法は臨床診断面接と統合して自殺リスク評価を改善することができる。
論文 参考訳(メタデータ) (2021-04-09T01:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。