論文の概要: Leveraging Evidence-Guided LLMs to Enhance Trustworthy Depression Diagnosis
- arxiv url: http://arxiv.org/abs/2511.17947v1
- Date: Sat, 22 Nov 2025 07:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.535228
- Title: Leveraging Evidence-Guided LLMs to Enhance Trustworthy Depression Diagnosis
- Title(参考訳): 信頼できる抑うつ診断を実現するためのエビデンスガイド型LDMの活用
- Authors: Yining Yuan, J. Ben Tamo, Micky C. Nnamdi, Yifei Wang, May D. Wang,
- Abstract要約: 透明性,信頼性,信頼性を高める2段階の診断フレームワークを提案する。
Evidence-Guided Diagnostic Reasoning (EGDR) を導入する。
第2に、生成された診断の事実的精度と論理的整合性を評価するための診断信頼度スコアリング(DCS)モジュールを提案する。
- 参考スコア(独自算出の注目度): 8.935425124628452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show promise in automating clinical diagnosis, yet their non-transparent decision-making and limited alignment with diagnostic standards hinder trust and clinical adoption. We address this challenge by proposing a two-stage diagnostic framework that enhances transparency, trustworthiness, and reliability. First, we introduce Evidence-Guided Diagnostic Reasoning (EGDR), which guides LLMs to generate structured diagnostic hypotheses by interleaving evidence extraction with logical reasoning grounded in DSM-5 criteria. Second, we propose a Diagnosis Confidence Scoring (DCS) module that evaluates the factual accuracy and logical consistency of generated diagnoses through two interpretable metrics: the Knowledge Attribution Score (KAS) and the Logic Consistency Score (LCS). Evaluated on the D4 dataset with pseudo-labels, EGDR outperforms direct in-context prompting and Chain-of-Thought (CoT) across five LLMs. For instance, on OpenBioLLM, EGDR improves accuracy from 0.31 (Direct) to 0.76 and increases DCS from 0.50 to 0.67. On MedLlama, DCS rises from 0.58 (CoT) to 0.77. Overall, EGDR yields up to +45% accuracy and +36% DCS gains over baseline methods, offering a clinically grounded, interpretable foundation for trustworthy AI-assisted diagnosis.
- Abstract(参考訳): 大きな言語モデル(LLM)は、臨床診断の自動化を約束するが、その非透明な意思決定と診断基準との整合性は、信頼性と臨床導入を妨げる。
透明性、信頼性、信頼性を高める2段階の診断フレームワークを提案することで、この問題に対処する。
まず,DSM-5 基準に基づく論理的推論による証拠抽出を行ない,LCM に構造的診断仮説を導出する Evidence-Guided Diagnostic Reasoning (EGDR) を提案する。
次に,2つの解釈可能な指標である知識属性スコア(KAS)と論理一貫性スコア(LCS)を用いて,生成した診断の事実的精度と論理的整合性を評価する診断信頼度スコア(DCS)モジュールを提案する。
D4データセットを擬似ラベルで評価し、EGDRは5つのLLMで直接コンテキスト内のプロンプトとCoT(Chain-of-Thought)を上回ります。
例えば OpenBioLLM では、EGDR は精度を 0.31 (Direct) から 0.76 に改善し、DCS は 0.50 から 0.67 に向上する。
MedLlamaでは、DCSは0.58(CoT)から0.77に上昇する。
全体として、EGDRの精度は+45%、DCSは+36%に達する。
関連論文リスト
- Evolving Diagnostic Agents in a Virtual Clinical Environment [75.59389103511559]
本稿では,大規模言語モデル(LLM)を強化学習を用いた診断エージェントとして訓練するためのフレームワークを提案する。
本手法は対話型探索と結果に基づくフィードバックによって診断戦略を取得する。
DiagAgentはDeepSeek-v3やGPT-4oなど、最先端の10のLLMを著しく上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:19:47Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - A Fully Automatic Framework for Intracranial Pressure Grading: Integrating Keyframe Identification, ONSD Measurement and Clinical Data [3.6652537579778106]
頭蓋内圧(ICP)上昇は脳機能に深刻な脅威をもたらし、時間的介入の監視を必要とする。
OnSD測定と臨床データを統合したICPグレーティングのための完全自動2段階フレームワークを提案する。
評価精度は0.845 pm 0.071$, 独立試験精度0.786であり, 従来のしきい値法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-11T11:37:48Z) - Teaching AI Stepwise Diagnostic Reasoning with Report-Guided Chain-of-Thought Learning [11.537036709742345]
DiagCoTは汎用視覚言語モデル(VLM)に教師付き微調整を適用するフレームワークである
DiagCoTは、ドメインアライメントのためのコントラッシブなイメージレポートチューニング、推論ロジックをキャプチャするためのチェーン・オブ・シンセサイザー、および臨床報酬信号による強化チューニングを組み合わせることで、事実の正確性と流布性を高める。
LLaVA-MedやCXR-LLAVAといった最先端モデルでは、長い尾の病気や外部データセットよりも優れています。
論文 参考訳(メタデータ) (2025-09-08T08:01:26Z) - Embeddings to Diagnosis: Latent Fragility under Agentic Perturbations in Clinical LLMs [0.0]
本稿では, 臨床用LDMの潜在ロバスト性について, 構造的対向編集による検討を行うLAPD (Latent Agentic Perturbation Diagnostics) を提案する。
本フレームワークでは,PCA-Reduced Latent Spaceにクロス決定境界を埋め込む際に,表現不安定性を捉えるモデルに依存しない診断信号であるLatent Diagnosis Flip Rate (LDFR)を導入する。
その結果, 表面の堅牢性とセマンティック安定性の間には, 安全クリティカルな臨床AIにおける幾何学的監査の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-27T16:48:53Z) - DocCHA: Towards LLM-Augmented Interactive Online diagnosis System [17.975659876934895]
DocCHAは、診断プロセスを3段階に分解することで臨床推論をエミュレートする、信頼性に配慮したモジュラーなフレームワークである。
実世界の中国のコンサルティングデータセットを2つ評価した。
論文 参考訳(メタデータ) (2025-07-10T15:52:04Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。