論文の概要: Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations
- arxiv url: http://arxiv.org/abs/2505.20201v1
- Date: Mon, 26 May 2025 16:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.949511
- Title: Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations
- Title(参考訳): 理学療法は必要ではない。多段階のメンタルヘルス会話のためのLLMの検討
- Authors: Mohit Chandra, Siddharth Sriraman, Harneet Singh Khanuja, Yiqiao Jin, Munmun De Choudhury,
- Abstract要約: MedAgentは、現実的で多ターンのメンタルヘルス・センスメイキングの会話を合成的に生成する新しいフレームワークである。
医療環境におけるLLMのマルチターン会話能力を評価するための総合的フレームワークであるMultiSenseEvalを提案する。
- 参考スコア(独自算出の注目度): 13.064927179032756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Limited access to mental healthcare, extended wait times, and increasing capabilities of Large Language Models (LLMs) has led individuals to turn to LLMs for fulfilling their mental health needs. However, examining the multi-turn mental health conversation capabilities of LLMs remains under-explored. Existing evaluation frameworks typically focus on diagnostic accuracy and win-rates and often overlook alignment with patient-specific goals, values, and personalities required for meaningful conversations. To address this, we introduce MedAgent, a novel framework for synthetically generating realistic, multi-turn mental health sensemaking conversations and use it to create the Mental Health Sensemaking Dialogue (MHSD) dataset, comprising over 2,200 patient-LLM conversations. Additionally, we present MultiSenseEval, a holistic framework to evaluate the multi-turn conversation abilities of LLMs in healthcare settings using human-centric criteria. Our findings reveal that frontier reasoning models yield below-par performance for patient-centric communication and struggle at advanced diagnostic capabilities with average score of 31%. Additionally, we observed variation in model performance based on patient's persona and performance drop with increasing turns in the conversation. Our work provides a comprehensive synthetic data generation framework, a dataset and evaluation framework for assessing LLMs in multi-turn mental health conversations.
- Abstract(参考訳): メンタルヘルスへの限られたアクセス、待ち時間の拡張、およびLarge Language Models(LLM)の能力の増大により、個人はメンタルヘルスのニーズを満たすためにLSMに移行した。
しかし、LSMの多ターン精神保健会話能力についてはまだ検討されていない。
既存の評価フレームワークは、診断精度と勝利率に重点を置いており、しばしば意味のある会話に必要な患者固有の目標、価値観、個性を見落としている。
この問題を解決するために,MedAgentという,現実的で多方向のメンタルヘルスセンス会話を人工的に生成する新しいフレームワークを導入し,それを用いて2200人以上の患者とLLM会話からなるメンタルヘルスセンスメイキング対話(MHSD)データセットを作成する。
また,医療環境におけるLLMのマルチターン会話能力を評価するための総合的枠組みであるMultiSenseEvalを,人間中心の基準を用いて提案する。
以上の結果から,フロンティア推論モデルでは,患者中心のコミュニケーションと高度な診断能力に苦慮し,平均スコアは31%であった。
さらに,患者のペルソナに基づくモデル性能の変化と,会話のターンの増加に伴うパフォーマンス低下を観察した。
我々の研究は、多ターン精神保健会話におけるLCMを評価するための総合的な合成データ生成フレームワーク、データセットおよび評価フレームワークを提供する。
関連論文リスト
- Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。
本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文 参考訳(メタデータ) (2025-02-04T11:50:40Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Quantifying AI Psychology: A Psychometrics Benchmark for Large Language Models [57.518784855080334]
大きな言語モデル(LLM)は例外的なタスク解決能力を示しており、人間に似た役割を担っている。
本稿では,LLMにおける心理学的次元を調査するための枠組みとして,心理学的識別,評価データセットのキュレーション,結果検証による評価について述べる。
本研究では,個性,価値観,感情,心の理論,モチベーション,知性の6つの心理学的側面を網羅した総合的心理測定ベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-25T16:09:08Z) - Leveraging Large Language Models for Patient Engagement: The Power of Conversational AI in Digital Health [1.8772687384996551]
大規模言語モデル(LLM)は、会話型AIを通じて医療における患者のエンゲージメントを変革する新たな機会を開いた。
4つのケーススタディを通して,LLMの非構造化会話データ処理能力を示す。
論文 参考訳(メタデータ) (2024-06-19T16:02:04Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health [42.711913023646915]
大規模言語モデル(LLM)のニュアンス会話能力を評価するための新しい枠組みを提案する。
そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。
GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。
論文 参考訳(メタデータ) (2024-03-08T23:46:37Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Conversational Health Agents: A Personalized LLM-Powered Agent Framework [1.4597673707346281]
会話型健康エージェント(英: Conversational Health Agents、CHA)は、援助や診断などの医療サービスを提供する対話型システムである。
我々は,対話エージェントがユーザの医療クエリに対してパーソナライズされた応答を生成するためのオープンソースのフレームワークであるopenCHAを提案する。
openCHAには、外部ソースから情報を集めるためのアクションを計画し実行するためのオーケストレータが含まれている。
論文 参考訳(メタデータ) (2023-10-03T18:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。