論文の概要: DocCHA: Towards LLM-Augmented Interactive Online diagnosis System
- arxiv url: http://arxiv.org/abs/2507.07870v1
- Date: Thu, 10 Jul 2025 15:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.473267
- Title: DocCHA: Towards LLM-Augmented Interactive Online diagnosis System
- Title(参考訳): DocCHA:LLMを利用したインタラクティブオンライン診断システムを目指して
- Authors: Xinyi Liu, Dachun Sun, Yi R. Fung, Dilek Hakkani-Tür, Tarek Abdelzaher,
- Abstract要約: DocCHAは、診断プロセスを3段階に分解することで臨床推論をエミュレートする、信頼性に配慮したモジュラーなフレームワークである。
実世界の中国のコンサルティングデータセットを2つ評価した。
- 参考スコア(独自算出の注目度): 17.975659876934895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the impressive capabilities of Large Language Models (LLMs), existing Conversational Health Agents (CHAs) remain static and brittle, incapable of adaptive multi-turn reasoning, symptom clarification, or transparent decision-making. This hinders their real-world applicability in clinical diagnosis, where iterative and structured dialogue is essential. We propose DocCHA, a confidence-aware, modular framework that emulates clinical reasoning by decomposing the diagnostic process into three stages: (1) symptom elicitation, (2) history acquisition, and (3) causal graph construction. Each module uses interpretable confidence scores to guide adaptive questioning, prioritize informative clarifications, and refine weak reasoning links. Evaluated on two real-world Chinese consultation datasets (IMCS21, DX), DocCHA consistently outperforms strong prompting-based LLM baselines (GPT-3.5, GPT-4o, LLaMA-3), achieving up to 5.18 percent higher diagnostic accuracy and over 30 percent improvement in symptom recall, with only modest increase in dialogue turns. These results demonstrate the effectiveness of DocCHA in enabling structured, transparent, and efficient diagnostic conversations -- paving the way for trustworthy LLM-powered clinical assistants in multilingual and resource-constrained settings.
- Abstract(参考訳): LLM(Large Language Models)の印象的な機能にもかかわらず、既存の会話型ヘルスエージェント(CHA)は静的で不安定であり、適応型マルチターン推論、症状の明確化、透明な意思決定ができない。
このことは、反復的かつ構造化された対話が不可欠である臨床診断における実際の適用性を妨げている。
診断過程を,(1)症状誘発,(2)履歴取得,(3)因果グラフ構築の3段階に分解することで,臨床推論をエミュレートする信頼性の高いモジュール型フレームワークDocCHAを提案する。
各モジュールは解釈可能な信頼スコアを使用して、適応的な質問を導き、情報的明確化を優先し、弱い推論リンクを洗練する。
2つの実世界の中国のコンサルティングデータセット(IMCS21、DX)で評価され、DocCHAは強力なプロンプトベースのLCMベースライン(GPT-3.5、GPT-4o、LLaMA-3)を一貫して上回り、診断精度は最大5.18パーセント向上し、症状のリコールは30%以上改善され、対話のターンはわずかに増加している。
これらの結果から,DocCHAの多言語・資源制約環境における信頼性の高いLCMベースの臨床助手の道を開く,構造化された,透明で,効率的な診断会話を可能にする効果が示された。
関連論文リスト
- Silence is Not Consensus: Disrupting Agreement Bias in Multi-Agent LLMs via Catfish Agent for Clinical Decision Making [80.94208848596215]
提案する概念は「Catfish Agent」である。これは、構造的不満を注入し、無声な合意に反するように設計された役割特化LDMである。
組織心理学において「ナマズ・エフェクト」にインスパイアされたカマズ・エージェントは、より深い推論を促進するために、新たなコンセンサスに挑戦するように設計されている。
論文 参考訳(メタデータ) (2025-05-27T17:59:50Z) - 3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark [0.29987253996125257]
3MDBenchは、LVLM駆動の遠隔医療相談をシミュレートし評価するためのオープンソースのフレームワークである。
内部推論によるマルチモーダル対話は、非対話設定よりもF1スコアが6.5%向上する。
診断畳み込みネットワークからLVLMのコンテキストに予測を注入すると、F1は最大20%上昇する。
論文 参考訳(メタデータ) (2025-03-26T07:32:05Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z) - KNSE: A Knowledge-aware Natural Language Inference Framework for
Dialogue Symptom Status Recognition [69.78432481474572]
症状状態認識(SSR)のための新しいフレームワークKNSEを提案する。
対話ウィンドウ内の各症状について、まず、症状の状態に関する症状と仮説に関する知識を生成し、(前提、知識、仮説)三重項を形成する。
次にBERTモデルを使用して三重項を符号化し、さらに発話アグリゲーション、自己アテンション、横断アテンション、GRUなどのモジュールで処理して症状状態を予測する。
論文 参考訳(メタデータ) (2023-05-26T11:23:26Z) - Clinical Camel: An Open Expert-Level Medical Language Model with
Dialogue-Based Knowledge Encoding [31.884600238089405]
臨床研究に適したオープン・大型言語モデル(LLM)であるクリニカル・カメルについて述べる。
QLoRAを用いてLLaMA-2を微調整し,医療用LCMの医療用ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-19T23:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。