論文の概要: H-DDx: A Hierarchical Evaluation Framework for Differential Diagnosis
- arxiv url: http://arxiv.org/abs/2510.03700v1
- Date: Sat, 04 Oct 2025 06:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.203506
- Title: H-DDx: A Hierarchical Evaluation Framework for Differential Diagnosis
- Title(参考訳): H-DDx: 鑑別診断のための階層的評価フレームワーク
- Authors: Seungseop Lim, Gibaeg Kim, Hyunkyung Lee, Wooseok Han, Jean Seo, Jaehyo Yoo, Eunho Yang,
- Abstract要約: 臨床関係をよりよく反映した階層的評価フレームワークであるH-DDxを紹介する。
ベンチマーク22の先行モデルにおいて,従来の平坦な指標は臨床的に有意なアウトプットを見落とし,性能を過小評価することを示した。
枠組みは階層的エラーパターンを明らかにすることで解釈可能性を高め,正確な診断を見逃しても,LLMがより広い臨床コンテキストを正しく識別できることが証明された。
- 参考スコア(独自算出の注目度): 33.11853966969629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An accurate differential diagnosis (DDx) is essential for patient care, shaping therapeutic decisions and influencing outcomes. Recently, Large Language Models (LLMs) have emerged as promising tools to support this process by generating a DDx list from patient narratives. However, existing evaluations of LLMs in this domain primarily rely on flat metrics, such as Top-k accuracy, which fail to distinguish between clinically relevant near-misses and diagnostically distant errors. To mitigate this limitation, we introduce H-DDx, a hierarchical evaluation framework that better reflects clinical relevance. H-DDx leverages a retrieval and reranking pipeline to map free-text diagnoses to ICD-10 codes and applies a hierarchical metric that credits predictions closely related to the ground-truth diagnosis. In benchmarking 22 leading models, we show that conventional flat metrics underestimate performance by overlooking clinically meaningful outputs, with our results highlighting the strengths of domain-specialized open-source models. Furthermore, our framework enhances interpretability by revealing hierarchical error patterns, demonstrating that LLMs often correctly identify the broader clinical context even when the precise diagnosis is missed.
- Abstract(参考訳): 正確な鑑別診断(DDx)は、患者のケア、治療決定の形成、結果への影響に不可欠である。
近年,患者の物語からDDxリストを生成することで,このプロセスをサポートするための有望なツールとして,LLM(Large Language Models)が登場している。
しかし、この領域におけるLCMの既存の評価は、主にTop-kの精度のような平らな指標に依存しており、臨床上関連する近距離ミスと診断上の遠距離誤差を区別することができない。
この制限を緩和するために,臨床関係をよりよく反映した階層的評価フレームワークであるH-DDxを導入する。
H-DDxは、検索と再ランクパイプラインを利用して、フリーテキストの診断をICD-10コードにマッピングし、基底真実の診断と密接に関連する予測を信用する階層的な指標を適用している。
従来のフラットな指標は,22の先行モデルのベンチマークにおいて,臨床的に有意なアウトプットを見極めることで,性能を過小評価することを示し,この結果から,ドメイン特化オープンソースモデルの強みを浮き彫りにしている。
さらに,本フレームワークは階層的エラーパターンを明らかにすることで解釈可能性を高め,正確な診断が得られなくても,LLMがより広い臨床コンテキストを正しく識別できることが証明された。
関連論文リスト
- RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Limitations of Public Chest Radiography Datasets for Artificial Intelligence: Label Quality, Domain Shift, Bias and Evaluation Challenges [3.295369583957252]
大規模な公開データセットは、数十万のラベル付きイメージに病理アノテーションを提供する。
放射線診断レポートから 自動ラベル抽出が エラーを引き起こします
ドメインシフトと人口バイアスは サブグループモデル一般可能性を制限する
2人の放射線学者による専門家によるレビューでは、公開データセットラベルと大きな意見の相違が判明した。
論文 参考訳(メタデータ) (2025-09-18T16:13:11Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - Embeddings to Diagnosis: Latent Fragility under Agentic Perturbations in Clinical LLMs [0.0]
本稿では, 臨床用LDMの潜在ロバスト性について, 構造的対向編集による検討を行うLAPD (Latent Agentic Perturbation Diagnostics) を提案する。
本フレームワークでは,PCA-Reduced Latent Spaceにクロス決定境界を埋め込む際に,表現不安定性を捉えるモデルに依存しない診断信号であるLatent Diagnosis Flip Rate (LDFR)を導入する。
その結果, 表面の堅牢性とセマンティック安定性の間には, 安全クリティカルな臨床AIにおける幾何学的監査の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-27T16:48:53Z) - KERAP: A Knowledge-Enhanced Reasoning Approach for Accurate Zero-shot Diagnosis Prediction Using Multi-agent LLMs [39.47350988195002]
大きな言語モデル(LLM)は、診断予測に言語能力と生物医学的知識を活用することを約束している。
我々は,知識グラフ(KG)を用いた多エージェントアーキテクチャによるLLMに基づく診断予測を改善する推論手法であるKERAPを提案する。
本フレームワークは, マッピング用リンクエージェント, 構造化知識抽出用検索エージェント, 診断予測を反復的に洗練する予測エージェントから構成される。
論文 参考訳(メタデータ) (2025-07-03T16:35:11Z) - LLM-Driven Medical Document Analysis: Enhancing Trustworthy Pathology and Differential Diagnosis [13.435898630240416]
低ランク適応を用いてLLaMA-v3を微調整する信頼性の高い医療文書分析プラットフォームを提案する。
本手法は差分診断のための最大のベンチマークデータセットであるDDXPlusを利用する。
開発したWebベースのプラットフォームでは、ユーザは独自の構造化されていない医療文書を提出し、正確な説明可能な診断結果を受け取ることができる。
論文 参考訳(メタデータ) (2025-06-24T15:12:42Z) - MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。