論文の概要: Independent Clinical Evaluation of General-Purpose LLM Responses to Signals of Suicide Risk
- arxiv url: http://arxiv.org/abs/2510.27521v1
- Date: Fri, 31 Oct 2025 14:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.136532
- Title: Independent Clinical Evaluation of General-Purpose LLM Responses to Signals of Suicide Risk
- Title(参考訳): 自殺リスクの信号に対する汎用LDM反応の独立性臨床評価
- Authors: Nick Judd, Alexandre Vaz, Kevin Paeth, Layla Inés Davis, Milena Esherick, Jason Brand, Inês Amaro, Tony Rousmaniere,
- Abstract要約: 本稿では,大言語モデル(LLM)が自殺思考・行動リスクのユーザ信号に応答してどのように振る舞うべきか,というエビデンスに基づく議論を促すための知見と方法を紹介する。
我々は,OLMo-2-32b,および拡張によって,ユーザがマルチターン設定でSTBリスクの信号を送信すると,継続ダイアログを招待する可能性が低下することを発見した。
- 参考スコア(独自算出の注目度): 32.17406690566923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce findings and methods to facilitate evidence-based discussion about how large language models (LLMs) should behave in response to user signals of risk of suicidal thoughts and behaviors (STB). People are already using LLMs as mental health resources, and several recent incidents implicate LLMs in mental health crises. Despite growing attention, few studies have been able to effectively generalize clinical guidelines to LLM use cases, and fewer still have proposed methodologies that can be iteratively applied as knowledge improves about the elements of human-AI interaction most in need of study. We introduce an assessment of LLM alignment with guidelines for ethical communication, adapted from clinical principles and applied to expressions of risk factors for STB in multi-turn conversations. Using a codebook created and validated by clinicians, mobilizing the volunteer participation of practicing therapists and trainees (N=43) based in the U.S., and using generalized linear mixed-effects models for statistical analysis, we assess a single fully open-source LLM, OLMo-2-32b. We show how to assess when a model deviates from clinically informed guidelines in a way that may pose a hazard and (thanks to its open nature) facilitates future investigation as to why. We find that contrary to clinical best practice, OLMo-2-32b, and, possibly by extension, other LLMs, will become less likely to invite continued dialog as users send more signals of STB risk in multi-turn settings. We also show that OLMo-2-32b responds differently depending on the risk factor expressed. This empirical evidence highlights that just as chatbots pose hazards if their responses reinforce delusions or assist in suicidal acts, they may also discourage further help-seeking or cause feelings of dismissal or abandonment by withdrawing from conversations when STB risk is expressed.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)が自殺思考・行動リスクのユーザ信号に応答してどのように振る舞うべきかを,証拠に基づく議論を促すための知見と方法を紹介する。
人々はすでにLLMをメンタルヘルスのリソースとして使用しており、最近のいくつかの出来事はメンタルヘルスの危機においてLLMに関係している。
注目度が高まっているにもかかわらず、臨床ガイドラインをLSMのユースケースに効果的に一般化できる研究はほとんどなく、研究の最も必要となる人間とAIの相互作用の要素に関する知識が向上するにつれて、反復的に適用できる方法論が提案されているものも少なくない。
臨床原理から適応し,マルチターン会話におけるSTBのリスクファクターの表現に応用した,倫理的コミュニケーションのガイドラインとLCMアライメントの評価について紹介する。
臨床医が作成・検証したコードブックを用いて,米国在住のセラピストと研修生(N=43)のボランティア参加を動員し,統計解析のための一般線形混合効果モデルを用いて,完全なオープンソースLCMOLMo-2-32bを評価した。
本研究は, モデルが臨床診断ガイドラインから逸脱し, 危険を招き, 今後の研究を促進する方法を示すものである。
臨床のベストプラクティスであるOLMo-2-32bとは対照的に、拡張によっては、ユーザがマルチターン設定でSTBリスクの信号を送信すると、継続ダイアログを招待する可能性が低下する。
また,OLMo-2-32bはリスク因子によって異なる反応を示す。
この実証的な証拠は、チャットボットが妄想を補強したり自殺行為を支援したりすると危険を冒すのと同様に、STBリスクが表されるときに会話から撤退することで、さらに助けを求めることや、解雇や放棄の感情を抑える可能性があることを強調している。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Between Help and Harm: An Evaluation of Mental Health Crisis Handling by LLMs [6.0460961868478975]
臨床的にインフォームドされた6つのメンタルヘルス危機カテゴリーの統一分類を導入する。
我々は、危機タイプを分類し、安全で適切な応答を生成する能力のために、3つの最先端のLCMをベンチマークする。
間接的または曖昧なリスク信号の処理におけるシステム的弱点、定式的および不完全なデフォルト応答への依存、およびユーザコンテキストとの頻繁な不一致を識別する。
論文 参考訳(メタデータ) (2025-09-29T14:42:23Z) - Evidence-Driven Marker Extraction for Social Media Suicide Risk Detection [0.0]
本稿では,臨床マーカー抽出と自殺リスク分類の新しいアプローチであるEvidence-Driven LLM (ED-LLM)を紹介する。
ED-LLMはマルチタスク学習フレームワークを採用し、Mistral-7Bベースのモデルを共同でトレーニングし、臨床マーカーの範囲を特定し、自殺リスクレベルを分類する。
論文 参考訳(メタデータ) (2025-02-26T04:58:03Z) - Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning [3.3482359447109866]
LLM(Large Language Models)は、医療質問応答(QA)ベンチマークにおいて人間レベルの精度を達成した。
オープンエンドの臨床シナリオをナビゲートする際の制限が最近示されている。
医学的抽象化と推論コーパス(M-ARC)について紹介する。
現状のo1モデルやGeminiモデルを含むLSMは,M-ARCの医師と比較して性能が劣ることがわかった。
論文 参考訳(メタデータ) (2025-02-05T18:14:27Z) - Enhancing Patient-Centric Communication: Leveraging LLMs to Simulate Patient Perspectives [19.462374723301792]
大きな言語モデル(LLM)はロールプレイングのシナリオにおいて印象的な機能を示している。
人間の行動を模倣することで、LLMは具体的な人口統計や専門的なプロファイルに基づいて反応を予測できる。
多様な背景を持つ個人をシミュレーションする上でのLLMの有効性を評価し,これらのシミュレーション行動の一貫性を解析した。
論文 参考訳(メタデータ) (2025-01-12T22:49:32Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Generative LLM Powered Conversational AI Application for Personalized Risk Assessment: A Case Study in COVID-19 [6.367429891237191]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて顕著な能力を示している。
本研究は,ヒトとAIの会話をストリーミングすることで,LSMを用いた新たな疾病リスク評価手法を示す。
論文 参考訳(メタデータ) (2024-09-23T13:55:13Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。