論文の概要: CRADLE Bench: A Clinician-Annotated Benchmark for Multi-Faceted Mental Health Crisis and Safety Risk Detection
- arxiv url: http://arxiv.org/abs/2510.23845v1
- Date: Mon, 27 Oct 2025 20:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.51094
- Title: CRADLE Bench: A Clinician-Annotated Benchmark for Multi-Faceted Mental Health Crisis and Safety Risk Detection
- Title(参考訳): CRADLE Bench:多面的メンタルヘルス危機と安全リスク検出のための臨床診断ベンチマーク
- Authors: Grace Byun, Rebecca Lipschutz, Sean T. Minton, Abigail Lott, Jinho D. Choi,
- Abstract要約: 我々は,多面的危機検出のベンチマークであるCRADLE BENCHを紹介する。
本ベンチマークでは,600名の臨床医による評価例と420名の開発例を提供する。
コンセンサスおよび全会一致で定義されたサブセット上での6つの危機検出モデルをさらに微調整する。
- 参考スコア(独自算出の注目度): 8.296902072126182
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Detecting mental health crisis situations such as suicide ideation, rape, domestic violence, child abuse, and sexual harassment is a critical yet underexplored challenge for language models. When such situations arise during user--model interactions, models must reliably flag them, as failure to do so can have serious consequences. In this work, we introduce CRADLE BENCH, a benchmark for multi-faceted crisis detection. Unlike previous efforts that focus on a limited set of crisis types, our benchmark covers seven types defined in line with clinical standards and is the first to incorporate temporal labels. Our benchmark provides 600 clinician-annotated evaluation examples and 420 development examples, together with a training corpus of around 4K examples automatically labeled using a majority-vote ensemble of multiple language models, which significantly outperforms single-model annotation. We further fine-tune six crisis detection models on subsets defined by consensus and unanimous ensemble agreement, providing complementary models trained under different agreement criteria.
- Abstract(参考訳): 自殺、レイプ、家庭内暴力、児童虐待、セクシャルハラスメントなどのメンタルヘルスの状況を検出することは、言語モデルにとって重要で未解決の課題である。
このような状況がユーザ-モデルインタラクションの間に発生する場合、モデルがそれらを確実にフラグ付けする必要がある。
本研究では,多面的危機検出のベンチマークであるCRADLE BENCHを紹介する。
これまでの一連の危機タイプに焦点を絞った取り組みとは違って、我々のベンチマークでは、臨床基準に従って定義された7つのタイプをカバーし、初めて時間ラベルを組み込んだ。
本ベンチマークでは,600名の臨床医による注釈付き評価例と420名の開発例に加えて,複数言語モデルの多数投票アンサンブルを用いて,約4K例のトレーニングコーパスを自動ラベル付けし,単一モデルアノテーションを著しく上回る結果を得た。
コンセンサスおよび全一致合意によって定義されたサブセット上での6つの危機検出モデルをさらに微調整し、異なる合意基準の下で訓練された補完モデルを提供する。
関連論文リスト
- RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models [43.76961935990733]
欠陥のあるシステムに基づいて、言語モデルが回答を拒否する能力は、依然として重大な障害点である。
RefusalBenchは、制御された言語コンテキストを通して診断テストケースを作成するジェネレーティブな方法論である。
選択的な拒絶は、改善への明確な道筋を提供する列車で、アライメントに敏感な能力であることがわかった。
論文 参考訳(メタデータ) (2025-10-12T00:53:42Z) - Evaluating Large Language Models in Crisis Detection: A Real-World Benchmark from Psychological Support Hotlines [5.249698789320767]
PsyCrisisBenchは、Hangzhou Psychological Assistance Hotlineの540の注釈付きテキストのベンチマークである。
気分認識、自殺の考えの検出、自殺計画の特定、リスクアセスメントの4つの課題を評価する。
QwQ-32Bのようなオープンソースモデルは、ほとんどのタスクにおいてクローズソースと互換性があるが、クローズドモデルはムード検出においてエッジを保持していた。
論文 参考訳(メタデータ) (2025-06-02T05:18:24Z) - Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making [80.94208848596215]
提案する概念は「Catfish Agent」である。これは、構造的不満を注入し、無声な合意に反するように設計された役割特化LDMである。
組織心理学において「ナマズ・エフェクト」にインスパイアされたカマズ・エージェントは、より深い推論を促進するために、新たなコンセンサスに挑戦するように設計されている。
論文 参考訳(メタデータ) (2025-05-27T17:59:50Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Still Not Quite There! Evaluating Large Language Models for Comorbid Mental Health Diagnosis [9.738105623317601]
我々は、ソーシャルメディア投稿からの抑うつ不安のコorbidity分類のための、新しいファースト・オブ・イットのベンチマークであるAN GSTを紹介する。
我々は、メンタル-BERT から GPT-4 まで、様々な最先端言語モデルを用いてAN GSTをベンチマークする。
GPT-4は一般に他のモデルより優れているが、F1スコアが72%を超えるようなマルチクラスのコンコービッド分類は達成していない。
論文 参考訳(メタデータ) (2024-10-04T20:24:11Z) - PersonalizedUS: Interpretable Breast Cancer Risk Assessment with Local Coverage Uncertainty Quantification [2.6911061523689415]
現在の「ゴールドスタンダード」は、臨床医による手動のBI-RADSスコアに依存しており、しばしば不必要な生検や、患者とその家族に対する精神的な負担を伴っている。
我々は、直列予測の最近の進歩を活用して、正確でパーソナライズされたリスク推定を提供する、パーソナライズされた機械学習システムであるPersonalizedUSを紹介する。
具体的な臨床効果としては、BI-RADS 4aと4bの病変のうち、要求された生検を最大で65%減らし、がんの再発は最小限である。
論文 参考訳(メタデータ) (2024-08-28T00:47:55Z) - Detecting Suicide Risk in Online Counseling Services: A Study in a
Low-Resource Language [5.2636083103718505]
本稿では,PLM(Pre-trained Language Model)と手作業による自殺的手がかりの固定セットを組み合わせたモデルを提案する。
我々のモデルは0.91ROC-AUCと0.55のF2スコアを達成し、会話の早い段階でも強いベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2022-09-11T10:06:14Z) - SCRIB: Set-classifier with Class-specific Risk Bounds for Blackbox
Models [48.374678491735665]
クラス固有RIsk境界(SCRIB)を用いたSet-classifierを導入し,この問題に対処する。
SCRIBは、クラス固有の予測リスクを理論的保証で制御するセット分類器を構築する。
脳波(EEG)データによる睡眠ステージング,X線COVID画像分類,心電図(ECG)データに基づく心房細動検出など,いくつかの医学的応用についてSCRIBを検証した。
論文 参考訳(メタデータ) (2021-03-05T21:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。