論文の概要: EmplifAI: a Fine-grained Dataset for Japanese Empathetic Medical Dialogues in 28 Emotion Labels
- arxiv url: http://arxiv.org/abs/2601.10033v1
- Date: Thu, 15 Jan 2026 03:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.974423
- Title: EmplifAI: a Fine-grained Dataset for Japanese Empathetic Medical Dialogues in 28 Emotion Labels
- Title(参考訳): EmplifAI:28の感情ラベルにおける日本の共感的医療対話のための細粒度データセット
- Authors: Wan Jou She, Lis Kanashiro Pereira, Fei Cheng, Sakiko Yahata, Panote Siriaraya, Eiji Aramaki,
- Abstract要約: EmplifAIは、慢性的な医療状況に対処する患者を支援するために設計された日本の共感的対話データセットである。
データセットには280の医療状況と4125の2ターン対話が含まれており、クラウドソーシングと専門家レビューを通じて収集されている。
- 参考スコア(独自算出の注目度): 9.936946086555293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces EmplifAI, a Japanese empathetic dialogue dataset designed to support patients coping with chronic medical conditions. They often experience a wide range of positive and negative emotions (e.g., hope and despair) that shift across different stages of disease management. EmplifAI addresses this complexity by providing situation-based dialogues grounded in 28 fine-grained emotion categories, adapted and validated from the GoEmotions taxonomy. The dataset includes 280 medically contextualized situations and 4125 two-turn dialogues, collected through crowdsourcing and expert review. To evaluate emotional alignment in empathetic dialogues, we assessed model predictions on situation--dialogue pairs using BERTScore across multiple large language models (LLMs), achieving F1 scores of 0.83. Fine-tuning a baseline Japanese LLM (LLM-jp-3.1-13b-instruct4) with EmplifAI resulted in notable improvements in fluency, general empathy, and emotion-specific empathy. Furthermore, we compared the scores assigned by LLM-as-a-Judge and human raters on dialogues generated by multiple LLMs to validate our evaluation pipeline and discuss the insights and potential risks derived from the correlation analysis.
- Abstract(参考訳): 本稿では,慢性疾患に対処する患者を支援するための対話データセットであるEmplifAIを紹介する。
彼らはしばしば、疾患管理のさまざまな段階にまたがる幅広いポジティブな感情とネガティブな感情(例えば、希望と絶望)を経験する。
EmplifAIはこの複雑さに対処し、28のきめ細かい感情カテゴリーに根ざした状況ベースの対話を提供し、GoEmotions分類から適応し、検証する。
データセットには280の医療状況と4125の2ターン対話が含まれており、クラウドソーシングと専門家レビューを通じて収集されている。
情緒的対話における感情的アライメントを評価するために,複数の大言語モデル (LLM) にまたがるBERTScore を用いた状況-対話ペアのモデル予測を行い,F1スコアの0.83を達成した。
EmplifAI を用いた日本語 LLM (LLM-jp-3.1-13b-instruct4) の微調整により, 寛容, 一般共感, 感情特異的共感の顕著な改善が得られた。
さらに, LLM-as-a-Judge と人間ラッカーが割り当てたスコアを複数の LLM が生成する対話で比較し, 評価パイプラインの評価を行い, 相関分析から得られた洞察と潜在的なリスクについて検討した。
関連論文リスト
- Balancing Knowledge Delivery and Emotional Comfort in Healthcare Conversational Systems [24.901611078628527]
我々は、大規模言語モデルを用いて、現実世界の対話型医療対話データセットを書き換える。
患者に対するネガティブな感情とそれに対応する医学的反応を提示し,その懸念に対処しながら患者の感情を和らげる。
論文 参考訳(メタデータ) (2025-06-16T16:54:03Z) - AI PsyRoom: Artificial Intelligence Platform for Segmented Yearning and Reactive Outcome Optimization Method [8.268828460773028]
心理学的カウンセリングは、メンタルヘルスサービスの需要の増加と専門職の不足により、大きな課題に直面している。
大規模言語モデル(LLM)は、心理学的カウンセリング、特に共感と感情的支援を支援する可能性がある。
本稿では,共感的,感情的ニュアンスのある会話を生成することで,心理カウンセリングを強化するためのマルチエージェント・シミュレーション・フレームワークであるAI PsyRoomを紹介する。
論文 参考訳(メタデータ) (2025-06-07T10:01:55Z) - Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。
また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。
実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文 参考訳(メタデータ) (2025-01-29T18:58:48Z) - Unlocking LLMs: Addressing Scarce Data and Bias Challenges in Mental Health [8.703482957316107]
大規模言語モデル(LLM)は、医療分析において有望な能力を示しているが、幻覚、オウム、偏見の顕在化といったいくつかの課題に直面している。
IC-AnnoMI(IC-AnnoMI)は、AnnoMI上に構築された、専門家によるモチベーションインタビュー(MI)データセットである。
IC-AnnoMIは、治療スタイル(共感、反射)、文脈的関連性、偽の意味変化を考慮に入れ、キューや調整された情報を通じて正確に設計されたターゲットプロンプトを使用する。
論文 参考訳(メタデータ) (2024-12-17T15:01:07Z) - Synthetic Patient-Physician Dialogue Generation from Clinical Notes Using LLM [27.33193944412666]
医療対話システム(MDS)は、患者と医師のコミュニケーションを強化し、医療のアクセシビリティを改善し、コストを削減する。
しかし、これらのシステムの訓練に適したデータを取得することは大きな課題である。
我々のアプローチであるSynDialは、ゼロショットプロンプトとフィードバックループを備えた単一のLLMを反復的に使用し、高品質な合成対話を生成する。
論文 参考訳(メタデータ) (2024-08-12T16:49:22Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。