論文の概要: Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification
- arxiv url: http://arxiv.org/abs/2602.24111v1
- Date: Fri, 27 Feb 2026 15:49:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.498178
- Title: Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification
- Title(参考訳): 形式的検証による視覚言語モデルにおける臨床推論の保証に向けて
- Authors: Vikash Singh, Debargha Ganguly, Haotian Yu, Chengwei Zhou, Prerna Singh, Brandon Lee, Vipin Chaudhary, Gourav Datta,
- Abstract要約: ヴィジュアル言語モデル(VLM)は放射線学レポートの起草において有望であるが、しばしば論理的矛盾に悩まされる。
標準的な語彙測度は、臨床パラフレージングを強く罰し、これらの誘因的障害を捉えるのに失敗する。
本稿では,VLMレポートの内部一貫性を決定的に監査するニューロシンボリック検証フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.60121003165514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) show promise in drafting radiology reports, yet they frequently suffer from logical inconsistencies, generating diagnostic impressions unsupported by their own perceptual findings or missing logically entailed conclusions. Standard lexical metrics heavily penalize clinical paraphrasing and fail to capture these deductive failures in reference-free settings. Toward guarantees for clinical reasoning, we introduce a neurosymbolic verification framework that deterministically audits the internal consistency of VLM-generated reports. Our pipeline autoformalizes free-text radiographic findings into structured propositional evidence, utilizing an SMT solver (Z3) and a clinical knowledge base to verify whether each diagnostic claim is mathematically entailed, hallucinated, or omitted. Evaluating seven VLMs across five chest X-ray benchmarks, our verifier exposes distinct reasoning failure modes, such as conservative observation and stochastic hallucination, that remain invisible to traditional metrics. On labeled datasets, enforcing solver-backed entailment acts as a rigorous post-hoc guarantee, systematically eliminating unsupported hallucinations to significantly increase diagnostic soundness and precision in generative clinical assistants.
- Abstract(参考訳): 視覚言語モデル(VLM)は、放射線学レポートの起草において有望であるが、しばしば論理的不整合に悩まされ、自身の知覚的発見や、論理的に関連する結論の欠如によって、診断的印象が生じる。
標準的な語彙指標は、臨床言い換えを強く罰し、参照なしの設定でこれらの推論失敗を捉えるのに失敗する。
臨床推論の保証に向けて,VLMレポートの内部一貫性を確定的に評価するニューロシンボリック検証フレームワークを導入する。
SMTソルバ (Z3) と臨床知識ベースを用いて, 各診断クレームが数学的に関連付けられているか, 幻覚されているか, 省略されているかを確認する。
5つの胸部X線ベンチマークで7つのVLMを評価することにより,従来のメトリクスでは見えない保守的観察や確率的幻覚といった,明確な障害モードが明らかになった。
ラベル付きデータセットでは、解決者支援によるエンターテイメントは厳格な保温後保証として機能し、予防的幻覚を体系的に排除し、生成型臨床助手の診断の健全性と精度を著しく向上させる。
関連論文リスト
- Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。
GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。
我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文 参考訳(メタデータ) (2026-03-03T09:36:43Z) - NeuroSymb-MRG: Differentiable Abductive Reasoning with Active Uncertainty Minimization for Radiology Report Generation [17.916502111955456]
NeuroSymb-MRGは,NeuroSymbolic abductive reasoningと能動的不確実性最小化を統合し,構造的,臨床的根拠のある報告を生成する統合フレームワークである。
このシステムは、画像の特徴を確率論的臨床概念にマッピングし、異なる論理ベースの推論チェーンを構成し、それらのチェーンをテンプレート付き節にデコードし、検索と制約付き言語モデル編集を通じてテキスト出力を洗練する。
論文 参考訳(メタデータ) (2026-03-02T11:31:30Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - Benchmarking Egocentric Clinical Intent Understanding Capability for Medical Multimodal Large Language Models [48.95516224614331]
MedGaze-Benchは、臨床医の視線を認知的カーソルとして活用し、手術、緊急シミュレーション、診断解釈における意図的理解を評価する最初のベンチマークである。
本ベンチマークでは,解剖学的構造の視覚的均一性,臨床における時間・因果依存性の厳格化,安全プロトコルへの暗黙の順守という3つの基本的な課題に対処する。
論文 参考訳(メタデータ) (2026-01-11T02:20:40Z) - MedEinst: Benchmarking the Einstellung Effect in Medical LLMs through Counterfactual Differential Diagnosis [13.241795322837861]
MedEinstは,49の疾患に5,383対の臨床症例を比較検討した。
バイアストラップ速度による感受性の測定-正確な診断制御にもかかわらず、誤診断トラップの確率について検討する。
論文 参考訳(メタデータ) (2026-01-10T17:39:25Z) - Modeling Clinical Uncertainty in Radiology Reports: from Explicit Uncertainty Markers to Implicit Reasoning Pathways [16.76473492794096]
明示的な不確実性は、ヘッジフレーズを通じて伝達される発見の有無についての疑念を反映している。
入射不確実性は、放射線学者がその推論の一部を省略し、重要な発見や診断のみを記録するときに生じる。
ここでは、省略された所見が真に欠如しているか、単に軽快のため欠落しているかは、しばしば不明である。
我々は、エキスパート検証されたLLMベースの共通ヘッジフレーズの基準ランキングを作成し、この基準に基づいて各発見を確率値にマッピングすることで、明確な不確実性を定量化する。
さらに、14の共通診断のための専門家定義診断経路から派生した特徴的サブフィンディングを体系的に付加する拡張フレームワークを通じて暗黙的な不確実性をモデル化する。
論文 参考訳(メタデータ) (2025-11-06T16:24:53Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - SURE-Med: Systematic Uncertainty Reduction for Enhanced Reliability in Medical Report Generation [2.2185034594788164]
視覚, 分布, 文脈の3つの重要な次元における不確実性を体系的に低減する統合フレームワークSURE-Medを提案する。
視覚的不確実性を軽減するため、Frontal-Aware View Resamplingモジュールはビューアノテーションエラーを修正し、補足ビューから情報的特徴を適応的に選択する。
ラベル分布の不確実性に対処するために,批判的診断文のモデリングを促進させるToken Sensitive Learningの目標を提案する。
文脈不確実性を低減するため、文脈証拠フィルタは、現在の画像と整合する事前情報を検証し、選択的に組み込んで、幻覚を効果的に抑制する。
論文 参考訳(メタデータ) (2025-08-03T09:52:30Z) - Embeddings to Diagnosis: Latent Fragility under Agentic Perturbations in Clinical LLMs [0.0]
本稿では, 臨床用LDMの潜在ロバスト性について, 構造的対向編集による検討を行うLAPD (Latent Agentic Perturbation Diagnostics) を提案する。
本フレームワークでは,PCA-Reduced Latent Spaceにクロス決定境界を埋め込む際に,表現不安定性を捉えるモデルに依存しない診断信号であるLatent Diagnosis Flip Rate (LDFR)を導入する。
その結果, 表面の堅牢性とセマンティック安定性の間には, 安全クリティカルな臨床AIにおける幾何学的監査の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-07-27T16:48:53Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Towards the Identifiability and Explainability for Personalized Learner
Modeling: An Inductive Paradigm [36.60917255464867]
本稿では,エンコーダ・デコーダモデルにインスパイアされた新しい応答効率応答パラダイムに基づく,識別可能な認知診断フレームワークを提案する。
診断精度を損なうことなく,ID-CDFが効果的に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-09-01T07:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。