論文の概要: Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations
- arxiv url: http://arxiv.org/abs/2505.20201v1
- Date: Mon, 26 May 2025 16:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.949511
- Title: Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations
- Title(参考訳): 理学療法は必要ではない。多段階のメンタルヘルス会話のためのLLMの検討
- Authors: Mohit Chandra, Siddharth Sriraman, Harneet Singh Khanuja, Yiqiao Jin, Munmun De Choudhury,
- Abstract要約: MedAgentは、現実的で多ターンのメンタルヘルス・センスメイキングの会話を合成的に生成する新しいフレームワークである。
医療環境におけるLLMのマルチターン会話能力を評価するための総合的フレームワークであるMultiSenseEvalを提案する。
- 参考スコア(独自算出の注目度): 13.064927179032756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Limited access to mental healthcare, extended wait times, and increasing capabilities of Large Language Models (LLMs) has led individuals to turn to LLMs for fulfilling their mental health needs. However, examining the multi-turn mental health conversation capabilities of LLMs remains under-explored. Existing evaluation frameworks typically focus on diagnostic accuracy and win-rates and often overlook alignment with patient-specific goals, values, and personalities required for meaningful conversations. To address this, we introduce MedAgent, a novel framework for synthetically generating realistic, multi-turn mental health sensemaking conversations and use it to create the Mental Health Sensemaking Dialogue (MHSD) dataset, comprising over 2,200 patient-LLM conversations. Additionally, we present MultiSenseEval, a holistic framework to evaluate the multi-turn conversation abilities of LLMs in healthcare settings using human-centric criteria. Our findings reveal that frontier reasoning models yield below-par performance for patient-centric communication and struggle at advanced diagnostic capabilities with average score of 31%. Additionally, we observed variation in model performance based on patient's persona and performance drop with increasing turns in the conversation. Our work provides a comprehensive synthetic data generation framework, a dataset and evaluation framework for assessing LLMs in multi-turn mental health conversations.
- Abstract(参考訳): メンタルヘルスへの限られたアクセス、待ち時間の拡張、およびLarge Language Models(LLM)の能力の増大により、個人はメンタルヘルスのニーズを満たすためにLSMに移行した。
しかし、LSMの多ターン精神保健会話能力についてはまだ検討されていない。
既存の評価フレームワークは、診断精度と勝利率に重点を置いており、しばしば意味のある会話に必要な患者固有の目標、価値観、個性を見落としている。
この問題を解決するために,MedAgentという,現実的で多方向のメンタルヘルスセンス会話を人工的に生成する新しいフレームワークを導入し,それを用いて2200人以上の患者とLLM会話からなるメンタルヘルスセンスメイキング対話(MHSD)データセットを作成する。
また,医療環境におけるLLMのマルチターン会話能力を評価するための総合的枠組みであるMultiSenseEvalを,人間中心の基準を用いて提案する。
以上の結果から,フロンティア推論モデルでは,患者中心のコミュニケーションと高度な診断能力に苦慮し,平均スコアは31%であった。
さらに,患者のペルソナに基づくモデル性能の変化と,会話のターンの増加に伴うパフォーマンス低下を観察した。
我々の研究は、多ターン精神保健会話におけるLCMを評価するための総合的な合成データ生成フレームワーク、データセットおよび評価フレームワークを提供する。
関連論文リスト
- Reframe Your Life Story: Interactive Narrative Therapist and Innovative Moment Assessment with Large Language Models [92.93521294357058]
物語療法は、個人が問題のある人生の物語を代替品の力に変えるのに役立つ。
現在のアプローチでは、特殊精神療法ではリアリズムが欠如しており、時間とともに治療の進行を捉えることができない。
Int(Interactive Narrative Therapist)は、治療段階を計画し、反射レベルを誘導し、文脈的に適切な専門家のような反応を生成することによって、専門家の物語セラピストをシミュレートする。
論文 参考訳(メタデータ) (2025-07-27T11:52:09Z) - Can Language Models Understand Social Behavior in Clinical Conversations? [13.269701124756978]
社会的シグナルは非言語的手がかりを通じて伝達され、患者と研究者の関係の質を形成する。
大規模言語モデル(LLM)の最近の進歩は、感情的・社会的行動を予測する能力の増大を示している。
そこで本研究では,この20個の符号化信号をすべて追跡し,LLM動作のパターンを明らかにするシステムを提案する。
論文 参考訳(メタデータ) (2025-05-07T06:03:37Z) - Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。
本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文 参考訳(メタデータ) (2025-02-04T11:50:40Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Leveraging Large Language Models for Patient Engagement: The Power of Conversational AI in Digital Health [1.8772687384996551]
大規模言語モデル(LLM)は、会話型AIを通じて医療における患者のエンゲージメントを変革する新たな機会を開いた。
4つのケーススタディを通して,LLMの非構造化会話データ処理能力を示す。
論文 参考訳(メタデータ) (2024-06-19T16:02:04Z) - LLM Questionnaire Completion for Automatic Psychiatric Assessment [49.1574468325115]
大規模言語モデル(LLM)を用いて、非構造的心理面接を、様々な精神科領域と人格領域にまたがる構造化された質問票に変換する。
得られた回答は、うつ病の標準化された精神医学的指標(PHQ-8)とPTSD(PCL-C)の予測に使用される特徴として符号化される。
論文 参考訳(メタデータ) (2024-06-09T09:03:11Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health [42.711913023646915]
大規模言語モデル(LLM)のニュアンス会話能力を評価するための新しい枠組みを提案する。
そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。
GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。
論文 参考訳(メタデータ) (2024-03-08T23:46:37Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Conversational Health Agents: A Personalized LLM-Powered Agent Framework [1.4597673707346281]
会話型健康エージェント(英: Conversational Health Agents、CHA)は、援助や診断などの医療サービスを提供する対話型システムである。
我々は,対話エージェントがユーザの医療クエリに対してパーソナライズされた応答を生成するためのオープンソースのフレームワークであるopenCHAを提案する。
openCHAには、外部ソースから情報を集めるためのアクションを計画し実行するためのオーケストレータが含まれている。
論文 参考訳(メタデータ) (2023-10-03T18:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。