Fugu-MT 論文翻訳(概要): The Provenance Gap in Clinical AI: Evidence-Traceable Temporal Knowledge Graphs for Rare Disease Reasoning

論文の概要: The Provenance Gap in Clinical AI: Evidence-Traceable Temporal Knowledge Graphs for Rare Disease Reasoning

arxiv url: http://arxiv.org/abs/2604.17114v1
Date: Sat, 18 Apr 2026 19:10:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.340978
Title: The Provenance Gap in Clinical AI: Evidence-Traceable Temporal Knowledge Graphs for Rare Disease Reasoning
Title（参考訳）: 臨床AIの進歩:希少疾患推論のための追跡可能な時間的知識グラフ
Authors: Md Shamim Ahmed, Maja Dusanic, Moritz Nikolai Kirschner, Elisabeth Nyoungui, Jana Zschüntzsch, Lukas Galke Poech, Richard Röttger,
Abstract要約: 最前線の大規模言語モデルは臨床的に正確な出力を生成するが、それらの引用は製造されている。 HEG-TKGは,4つのPubMedレコードと高品質な階層化と1,280の病的軌跡を持つキュレートされたソースから構築された時間的知識グラフに臨床的主張を基礎づけるシステムである。
参考スコア（独自算出の注目度）: 1.4676581933580473
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Frontier large language models generate clinically accurate outputs, but their citations are often fabricated. We term this the Provenance Gap. We tested five frontier LLMs across 36 clinician-validated scenarios for three rare neuromuscular disease pairs. No model produced a clinically relevant PubMed identifier without prompting. When explicitly asked to cite, the best model achieved 15.3% relevant PMIDs; the majority resolved to real publications in unrelated fields. We present HEG-TKG (Hierarchical Evidence-Grounded Temporal Knowledge Graphs), a system that grounds clinical claims in temporal knowledge graphs built from 4,512 PubMed records and curated sources with quality-tier stratification and 1,280 disease-trajectory milestones. In a controlled three-arm comparison using the same synthesis model, HEG-TKG matches baseline clinical feature coverage while achieving 100% evidence verifiability with 203 inline citations. Guideline-RAG, given overlapping source documents as raw text, produces zero verifiable citations. LLM judges cannot distinguish fabricated from verified citations without PubMed audit data. Independent clinician evaluation confirms the verifiability advantage (Cohen's d = 1.81, p < 0.001) with no degradation on safety or completeness. A counterfactual experiment shows 80% resistance to injected clinical errors with 100% detectability via citation trace. The system deploys on-premise via open-source models so patient data never leaves institutional infrastructure.
Abstract（参考訳）: 最前線の大規模言語モデルは臨床的に正確なアウトプットを生成するが、その引用はしばしば作られる。これを前兆ギャップ(Provenance Gap)と呼ぶ。 3組の稀な神経筋疾患に対して,36例のクリニカル・バリデーション・シナリオを対象とした5つのフロンティアLSMを試験した。臨床に関連のあるPubMed識別子をプロンプトなしで生成するモデルはない。明示的に引用するよう依頼されたとき、最良のモデルは15.3%の関連するPMIDを達成した。 HEG-TKG(Herarchical Evidence-Grounded Temporal Knowledge Graphs)は,4,512個のPubMedレコードと高品質な階層化と1,280個の病的軌跡を持つキュレートされたソースから構築された時間的知識グラフに臨床クレームを基礎とするシステムである。同じ合成モデルを用いて, HEG-TKGは, 203インライン刺激による100%のエビデンス検証を達成しつつ, ベースラインの臨床的特徴カバレッジと一致した。原文として重複するソースドキュメントが与えられたガイドライン-RAGは、ゼロ検証可能な引用を生成する。 LLM審査員は、PubMed監査データなしでは、検証済みの引用と区別できない。独立した臨床医による評価では、安全性や完全性を損なうことなく、検証可能性の優位性(コーエンのd = 1.81, p < 0.001)を確認している。副作用に対する80%の抵抗性を示し、100%検出可能であった。このシステムはオープンソースモデルを通じてオンプレミスでデプロイされるので、患者のデータは機関のインフラを離れることはない。

関連論文リスト

First, Do No Harm (With LLMs): Mitigating Racial Bias via Agentic Workflows [0.0]
大規模言語モデル(LLM)は、医療現場でますます使われており、発生した医療テキストの人種的偏見や臨床推論への懸念が高まっている。本研究では、EU AI Actをガバナンスレンズとして使用し、2つのタスクで広く使用されている5つのLSMを評価する。全てのモデルは、合成ケース生成タスクにおける観察された人種分布から逸脱し、GPT-4.1は全体の偏差が最小であった。エージェントワークフローに埋め込まれた場合、DeepSeek V3は平均p値が0.0348、中央p値が0.1166、平均差が0.0949であった。
論文参考訳（メタデータ） (2026-04-20T10:02:38Z)
Eliciting Medical Reasoning with Knowledge-enhanced Data Synthesis: A Semi-Supervised Reinforcement Learning Approach [62.0906177191353]
既存のアプローチでは、教師付き微調整を経て、大規模プロプライエタリモデルからの連鎖推論トレースを蒸留し、強化学習(RL)を実施している。 MedSSRは,医療知識を付加したデータ合成と半教師付き強化学習フレームワークである。本フレームワークはまず, 分布制御可能な推論質問を合成するために, 稀な疾患知識を利用する。次に、ポリシーモデル自体を利用して高品質な擬似ラベルを生成する。これにより、擬似ラベルデータ上での自己教師型RLと、人間の注釈付き実データ上での教師型RLの2段階固有の訓練パラダイムが実現される。
論文参考訳（メタデータ） (2026-04-13T14:37:38Z)
Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。 1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文参考訳（メタデータ） (2026-04-06T00:23:10Z)
From Statistical Fidelity to Clinical Consistency: Scalable Generation and Auditing of Synthetic Patient Trajectories [0.8261055975875736]
臨床的に整合性を持たせるためのパイプラインを構築した。実症例180,712例から合成患者18,071例を作成した。プライバシーリスクの証拠は見つからず、メンバーシップのパフォーマンスはランダムな推測とは区別できない。
論文参考訳（メタデータ） (2026-03-06T00:17:59Z)
Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations [19.488236277427358]
視覚言語モデル(VLM)は、しばしばチェーン・オブ・シント(CoT)の説明を生み出す。胸部X線視覚質問応答(VQA)の臨床的基盤として,制御されたテキストと画像修正を用いてCoT忠実度を探索するフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-13T09:28:22Z)
Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。 Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文参考訳（メタデータ） (2025-09-13T15:03:34Z)
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。 DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文参考訳（メタデータ） (2025-06-25T13:42:26Z)
Trustworthy AI for Medicine: Continuous Hallucination Detection and Elimination with CHECK [1.3638020767676653]
大規模言語モデル(LLMs)は医療において有望であるが、幻覚は臨床利用にとって大きな障壁である。構造化された臨床データベースを統合して幻覚を検出する継続的学習フレームワークであるCHECKについて述べる。
論文参考訳（メタデータ） (2025-06-10T17:12:28Z)
UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。 UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。 UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文参考訳（メタデータ） (2020-10-22T02:28:11Z)
Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文参考訳（メタデータ） (2020-05-15T06:57:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。