Fugu-MT 論文翻訳(概要): Can AI Relate: Testing Large Language Model Response for Mental Health Support

論文の概要: Can AI Relate: Testing Large Language Model Response for Mental Health Support

arxiv url: http://arxiv.org/abs/2405.12021v2
Date: Mon, 07 Oct 2024 18:34:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 05:29:22.734498
Title: Can AI Relate: Testing Large Language Model Response for Mental Health Support
Title（参考訳）: AIはメンタルヘルスをサポートするために大規模な言語モデル応答をテストするか?
Authors: Saadia Gabriel, Isha Puri, Xuhai Xu, Matteo Malgaroli, Marzyeh Ghassemi,
Abstract要約: 大型言語モデル(LLM)はすでにニューヨーク・ラングーン、ダナ・ファーバー、NHSなどの病院システムで臨床使用のために試験されている。精神医療の自動化に向けて, LLM 反応が有効かつ倫理的な道筋であるか否かを評価するための評価枠組みを開発する。
参考スコア（独自算出の注目度）: 23.97212082563385
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are already being piloted for clinical use in hospital systems like NYU Langone, Dana-Farber and the NHS. A proposed deployment use case is psychotherapy, where a LLM-powered chatbot can treat a patient undergoing a mental health crisis. Deployment of LLMs for mental health response could hypothetically broaden access to psychotherapy and provide new possibilities for personalizing care. However, recent high-profile failures, like damaging dieting advice offered by the Tessa chatbot to patients with eating disorders, have led to doubt about their reliability in high-stakes and safety-critical settings. In this work, we develop an evaluation framework for determining whether LLM response is a viable and ethical path forward for the automation of mental health treatment. Our framework measures equity in empathy and adherence of LLM responses to motivational interviewing theory. Using human evaluation with trained clinicians and automatic quality-of-care metrics grounded in psychology research, we compare the responses provided by peer-to-peer responders to those provided by a state-of-the-art LLM. We show that LLMs like GPT-4 use implicit and explicit cues to infer patient demographics like race. We then show that there are statistically significant discrepancies between patient subgroups: Responses to Black posters consistently have lower empathy than for any other demographic group (2%-13% lower than the control group). Promisingly, we do find that the manner in which responses are generated significantly impacts the quality of the response. We conclude by proposing safety guidelines for the potential deployment of LLMs for mental health response.
Abstract（参考訳）: 大型言語モデル(LLM)はすでにニューヨーク・ラングーン、ダナ・ファーバー、NHSなどの病院システムで臨床使用のために試験されている。提案されたデプロイのユースケースは精神療法であり、LLMを利用したチャットボットが精神疾患を患っている患者を治療することができる。メンタルヘルス対応のためのLSMの展開は、精神療法へのアクセスを仮説的に拡大し、ケアをパーソナライズするための新たな可能性を提供する可能性がある。しかし、テッサ・チャットボットが摂食障害患者に提供した食事のアドバイスを損なうなど、近年の顕著な失敗は、その信頼性に疑問を呈している。本研究では, LLM 反応がメンタルヘルス治療の自動化に向けた, 有効かつ倫理的な道筋であるか否かを評価するための評価枠組みを開発する。当社の枠組みは, モチベーション型面接理論に対するLLM応答の共感と順応性を評価する。心理学研究に根ざした臨床医による人的評価とケア自動品質測定値を用いて, ピアツーピア対応者の回答を, 最先端のLCMによる回答と比較した。 GPT-4のようなLCMは、暗黙的かつ明示的な手がかりを用いて、人種のような患者人口を推測する。黒人のポスターに対する反応は、他のどの集団よりも共感が低い(対照群より2%-13%低い)。確率的に、反応が生成される方法が応答の質に大きく影響していることが分かる。精神保健対応のためのLCMの配置に関する安全ガイドラインを提案した。

関連論文リスト

MAGI: Multi-Agent Guided Interview for Psychiatric Assessment [50.6150986786028]
我々は,ゴールドスタンダードのMini International Neuropsychiatric Interview(MINI)を自動計算ナビゲーションに変換する最初のフレームワークであるMAGIを紹介する。臨床検査法, 会話適応性, 説明可能な推論を併用することにより, MAGI は LLM 支援型メンタルヘルスアセスメントを推し進めることを示す。
論文参考訳（メタデータ） (2025-04-25T11:08:27Z)
"It Listens Better Than My Therapist": Exploring Social Media Discourse on LLMs as Mental Health Tool [1.223779595809275]
大きな言語モデル(LLM)は、会話の流布、共感シミュレーション、可用性の新機能を提供する。本研究では,1万件以上のTikTokコメントを分析し,LLMをメンタルヘルスツールとして利用する方法について検討した。その結果、コメントの20%近くが個人利用を反映しており、これらのユーザーは圧倒的に肯定的な態度を示している。
論文参考訳（メタデータ） (2025-04-14T17:37:32Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文参考訳（メタデータ） (2024-07-03T17:08:52Z)
Roleplay-doh: Enabling Domain-Experts to Create LLM-simulated Patients via Eliciting and Adhering to Principles [58.82161879559716]
ドメインエキスパートから定性的なフィードバックを引き出す新しい人間-LLMコラボレーションパイプラインであるRoleplay-dohを開発した。このパイプラインを適用して、シニアメンタルヘルスサポーターが、シミュレートされた実践パートナのためにカスタマイズされたAI患者を作成できるようにします。
論文参考訳（メタデータ） (2024-07-01T00:43:02Z)
Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文参考訳（メタデータ） (2024-06-25T16:09:08Z)
WundtGPT: Shaping Large Language Models To Be An Empathetic, Proactive Psychologist [8.476124415001598]
WundtGPTは共感的で活動的な精神保健大言語モデルである。精神科医の診断を支援し、対面コミュニケーションに消極的な患者が自分の心理状態を理解するのを助けるように設計されている。
論文参考訳（メタデータ） (2024-06-16T16:06:38Z)
LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文参考訳（メタデータ） (2024-06-09T09:03:11Z)
Assessing Empathy in Large Language Models with Real-World Physician-Patient Interactions [9.327472312657392]
医療領域へのLarge Language Models(LLMs)の統合は、患者のケアとサポートを大幅に強化する可能性がある。本研究は、ChatGPTが医師が通常提供するものよりも共感の度合いが高いかどうかを調査する。マヨクリニックから患者メッセージと医師の回答の非特定データセットを収集し,ChatGPTを用いて代替応答を生成する。
論文参考訳（メタデータ） (2024-05-26T01:58:57Z)
Large Language Models are Capable of Offering Cognitive Reappraisal, if Guided [38.11184388388781]
大規模言語モデル(LLM)は感情的サポートの新しい機会を提供する。この研究は、認知的再評価に取り組み、第一歩を踏み出す。我々は、認知的再評価反応を生成するLLMのゼロショット能力について、第一種専門家による評価を行う。
論文参考訳（メタデータ） (2024-04-01T17:56:30Z)
Aligning Large Language Models for Enhancing Psychiatric Interviews through Symptom Delineation and Summarization [13.77580842967173]
本研究は,精神科面接に大規模言語モデルを適用するという新たな分野に寄与する。我々は、北朝鮮の亡命者からのカウンセリングデータを、外傷的な出来事や精神的な健康問題で分析する。実験結果から, LLM は症状記述タスクと要約タスクの両方において高い性能が得られることが示された。
論文参考訳（メタデータ） (2024-03-26T06:50:04Z)
A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health [42.711913023646915]
大規模言語モデル(LLM)のニュアンス会話能力を評価するための新しい枠組みを提案する。そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。 GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。
論文参考訳（メタデータ） (2024-03-08T23:46:37Z)
Inducing anxiety in large language models can induce bias [47.85323153767388]
我々は、確立された12の大規模言語モデル(LLM)に焦点を当て、精神医学でよく用いられる質問紙に答える。以上の結果から,最新のLSMの6つが不安アンケートに強く反応し,人間に匹敵する不安スコアが得られた。不安誘発は、LSMのスコアが不安アンケートに影響を及ぼすだけでなく、人種差別や老化などの偏見を測る以前に確立されたベンチマークにおいて、それらの行動に影響を及ぼす。
論文参考訳（メタデータ） (2023-04-21T16:29:43Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。