論文の概要: Synthesis and Evaluation of Long-term History-aware Medical Dialogue
- arxiv url: http://arxiv.org/abs/2605.19766v1
- Date: Tue, 19 May 2026 12:38:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.330378
- Title: Synthesis and Evaluation of Long-term History-aware Medical Dialogue
- Title(参考訳): 長期的履歴認識型医療対話の合成と評価
- Authors: Hebin Hu, Renke Dai, Ah-Hwee Tan, Yilin Kang,
- Abstract要約: 高品質な長期医療対話をLLMと合成するための枠組みを提案する。
我々は,医療エージェントの記憶能力を評価するために,対話内推論,対話間推論,合成推論の3つのベンチマークタスクを構築した。
ベンチマーク実験によると、最先端のLLMでさえMediLongChatと競合している。
- 参考スコア(独自算出の注目度): 6.317682711402412
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: An effective healthcare agent must be able to recall and reason over a patient's longitudinal medical history. However, the absence of datasets with realistic long-term dialogue timelines limits systematic evaluation. Real clinical text is constrained by privacy and ethics, while existing benchmarks focus on isolated interactions, failing to capture cross-session reasoning. We introduce a framework for synthesizing high-quality, long-term medical dialogues with LLMs. Our approach entails a knowledge-guided decomposition into three stages: constructing synthetic patient profiles with diverse disease and complication trajectories, generating multi-turn dialogues per encounter, and integrating them into a coherent longitudinal history dataset, MediLongChat. We establish three benchmark tasks-In-dialogue Reasoning, Cross-dialogue Reasoning, and Synthesis Reasoning-to evaluate the memory capabilities of healthcare agents. To assess data quality, we introduce a multi-dimensional evaluation framework combining vector-based metrics with LLM-as-a-judge assessments. Specifically, we define automatic measures-Faithfulness, Coherence, and Diversity-together with two LLM-based evaluations: Correctness and Realism. Benchmark experiments show that even state-of-the-art LLMs struggle with MediLongChat. These findings highlight the benchmark's applicability and underscore the need for tailored methods to advance healthcare agents.
- Abstract(参考訳): 効果的な医療エージェントは、患者の縦断的な医療履歴を思い出し、理屈を定めなければならない。
しかし、現実的な長期対話タイムラインを持つデータセットが存在しないことは、体系的な評価を制限している。
実際の臨床テキストはプライバシと倫理に制約されているが、既存のベンチマークは独立した相互作用に重点を置いており、断続的推論を捉えていない。
高品質な長期医療対話をLLMと合成するための枠組みを提案する。
本手法では,多彩な疾患と合併症の軌跡を持つ患者プロファイルの構築,多方向対話の生成,そしてこれらを一貫性のある縦長履歴データセットであるMediLongChatに統合する3つの段階に分解する。
我々は,医療エージェントの記憶能力を評価するために,対話内推論,対話間推論,合成推論の3つのベンチマークタスクを構築した。
データ品質を評価するために、ベクトルベースのメトリクスとLCM-as-a-judgeアセスメントを組み合わせた多次元評価フレームワークを導入する。
具体的には,LLMに基づく2つの評価 – 正確性,現実性 – を用いて,自動測度,コヒーレンス,多様性を規定する。
ベンチマーク実験によると、最先端のLLMでさえMediLongChatと競合している。
これらの知見は、ベンチマークの適用性を強調し、医療エージェントを前進させるための調整された方法の必要性を浮き彫りにしている。
関連論文リスト
- Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - MedDialogRubrics: A Comprehensive Benchmark and Evaluation Framework for Multi-turn Medical Consultations in Large Language Models [15.91764739198419]
5,200件の患者と6万件以上のきめ細粒度評価ルーブリックからなる新規なベンチマークであるMedDialogRubricsについて紹介する。
本フレームワークでは,実世界の電子的健康記録にアクセスすることなく,現実的な患者記録と主訴を合成するマルチエージェントシステムを採用している。
論文 参考訳(メタデータ) (2026-01-06T13:56:33Z) - MedKGEval: A Knowledge Graph-Based Multi-Turn Evaluation Framework for Open-Ended Patient Interactions with Clinical LLMs [19.12790150016383]
MedKGEvalは、臨床用大規模言語モデルのための新しいマルチターン評価フレームワークである。
知識グラフ駆動患者シミュレーション機構は、キュレートされた知識グラフから関連する医療事実を検索する。
ターンレベル評価フレームワークは、各モデル応答を臨床的適切性、事実的正当性、安全性について評価する。
論文 参考訳(メタデータ) (2025-10-14T07:22:26Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations [13.064927179032756]
MedAgentは、現実的で多ターンのメンタルヘルス・センスメイキングの会話を合成的に生成する新しいフレームワークである。
医療環境におけるLLMのマルチターン会話能力を評価するための総合的フレームワークであるMultiSenseEvalを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:42:02Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。