論文の概要: Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2603.20698v1
- Date: Sat, 21 Mar 2026 07:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.046443
- Title: Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs
- Title(参考訳): マルチモーダルLDMを用いた消化管診断のための臨床認知アライメント
- Authors: Huan Zheng, Yucheng Zhou, Tianyi Yan, Dubing Chen, Hongbo Lu, Wenlong Liao, Tao He, Pai Peng, Jianbing Shen,
- Abstract要約: MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 63.535652574541764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable potential in medical image analysis. However, their application in gastrointestinal endoscopy is currently hindered by two critical limitations: the misalignment between general model reasoning and standardized clinical cognitive pathways, and the lack of causal association between visual features and diagnostic outcomes. In this paper, we propose a novel Clinical-Cognitive-Aligned (CogAlign) framework to address these challenges. First, we endow the model with rigorous clinical analytical capabilities by constructing the hierarchical clinical cognition dataset and employing Supervised Fine-Tuning (SFT). Unlike conventional approaches, this strategy internalizes the hierarchical diagnostic logic of experts, ranging from anatomical localization and morphological evaluation to microvascular analysis, directly into the model. Second, to eliminate visual bias, we provide a theoretical analysis demonstrating that standard supervised tuning inevitably converges to spurious background correlations. Guided by this insight, we propose a counterfactual-driven reinforcement learning strategy to enforce causal rectification. By generating counterfactual normal samples via lesion masking and optimizing through clinical-cognition-centric rewards, we constrain the model to strictly ground its diagnosis in causal lesion features. Extensive experiments demonstrate that our approach achieves State-of-the-Art (SoTA) performance across multiple benchmarks, significantly enhancing diagnostic accuracy in complex clinical scenarios. All source code and datasets will be made publicly available.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
しかしながら、その消化管内視鏡への応用は、一般的なモデル推論と標準化された臨床認知経路の相違と、視覚的特徴と診断結果の因果関係の欠如の2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知(CogAlign)フレームワークを提案する。
まず, 階層的臨床認知データセットを構築し, スーパーバイザード・ファインチューニング(SFT)を用いて, 厳密な臨床分析能力を持つモデルを構築した。
従来の手法とは異なり、この戦略は解剖学的局在化や形態学的評価から微小血管分析まで、専門家の階層的診断ロジックをモデルに直接内包する。
第二に、視覚バイアスを排除するために、標準教師ありチューニングが必然的に背景相関に収束することを示す理論的解析を提供する。
この知見に導かれ, 因果的是正を行うための反事実駆動型強化学習戦略を提案する。
病変マスキングによる非現実的正常なサンプルの生成と臨床認知中心報酬の最適化により, 因果性病変の特徴の診断を厳格に基礎づけるようにモデルを拘束する。
大規模実験により, 複雑な臨床シナリオにおける診断精度を著しく向上し, 複数のベンチマークでSoTA(State-of-the-Art)性能を実現することができた。
すべてのソースコードとデータセットが公開されている。
関連論文リスト
- Mind the Rarities: Can Rare Skin Diseases Be Reliably Diagnosed via Diagnostic Reasoning? [31.103598483020857]
大規模視覚言語モデル(LVLM)は皮膚学において強い性能を示す。
稀な疾患に対する診断的推論は ほとんど未発見のままです
このデータセットには26,030のマルチモーダル画像テキストペアと6,354の臨床的に困難な症例が含まれている。
LVLMをリードするベンチマーク22は、診断精度、鑑別診断、臨床推論に重大な欠陥を呈する。
論文 参考訳(メタデータ) (2026-03-19T02:25:36Z) - Multi-View Stenosis Classification Leveraging Transformer-Based Multiple-Instance Learning Using Real-World Clinical Data [76.89269238957593]
冠動脈狭窄は心血管疾患の主要な原因であり,多発血管造影で冠動脈を解析し診断した。
患者レベルの狭窄分類のためのトランスフォーマーベースマルチビューマルチインスタンス学習フレームワークであるSegmentMILを提案する。
論文 参考訳(メタデータ) (2026-02-02T13:07:52Z) - RE-MCDF: Closed-Loop Multi-Expert LLM Reasoning for Knowledge-Grounded Clinical Diagnosis [11.973474883672282]
関係強化型多専門的臨床診断フレームワークRE-MCDFを提案する。
我々は,RE-MCDFが複雑な診断シナリオにおいて,最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-01T15:53:27Z) - AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis [7.5173141954286775]
内視鏡的所見と診断結果の両方を含む大規模な消化管病理データセットを構築した。
この設計は、画像特有の特徴をよりよく捉え、生成時のセマンティック一貫性を維持するためにモデルを導く。
臨床関連度は18.7%, 構造的完全性は32.4%改善し, 診断誤差は41.2%減少した。
論文 参考訳(メタデータ) (2025-07-24T14:12:20Z) - Insight: A Multi-Modal Diagnostic Pipeline using LLMs for Ocular Surface Disease Diagnosis [17.970320199904084]
眼表面疾患の診断に大規模言語モデル(LLM)を用いた,革新的なマルチモーダル診断パイプライン(MDPipe)を導入する。
これらの課題に対処するために,眼表面疾患の診断に大規模言語モデル(LLM)を用いることで,革新的なマルチモーダル診断パイプライン(MDPipe)を導入する。
論文 参考訳(メタデータ) (2024-10-01T00:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。