論文の概要: A Vision-language Framework for Comparative Reasoning in Radiology
- arxiv url: http://arxiv.org/abs/2606.06407v2
- Date: Mon, 08 Jun 2026 16:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:04.997562
- Title: A Vision-language Framework for Comparative Reasoning in Radiology
- Title(参考訳): 放射線学における比較推論のための視覚言語フレームワーク
- Authors: Tengfei Zhang, Ziheng Zhao, Xiaoman Zhang, Lisong Dai, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Weidi Xie,
- Abstract要約: 我々は,放射線学的比較を実体認識のクロスイメージ推論問題として定式化する。
我々は,日常的な画像とレポートのペアから得られた大規模比較画像資源を構築した。
臨床類似症例の検索を制御可能なエンティティ対応ビジュアルエンコーダであるMedReCoを開発した。
- 参考スコア(独自算出の注目度): 68.52471827773482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical imaging artificial intelligence has achieved strong performance in isolated image interpretation, but remains poorly aligned with radiological practice, where diagnosis and follow-up rely on comparison across prior studies and analogous reference cases. Here we formulate radiological comparison as an entity-aware cross-image reasoning problem and introduce a framework that supports both reference-case retrieval and temporal comparative interpretation. We construct MedReCo-DB, a large-scale comparative imaging resource derived from routine image-report pairs, comprising more than 690,000 images from over 160,000 patients across eight institutions, four countries and seven imaging modalities. Reports are decomposed into anatomical structures, abnormal findings and pathological conditions to provide supervision for entity-conditioned retrieval and comparative visual question answering. Using this resource, we develop MedReCo, an entity-aware visual encoder for controllable retrieval of clinically analogous cases, and MedReCo-VLM, a vision--language extension for generative interpretation of interval change. Across internal, external and cross-center evaluations, MedReCo achieved the highest Recall@1 in all 12 internal retrieval settings and improved external retrieval by a mean of 6.0 percentage points. In clinically confusable differential groups, it consistently outperformed the strongest baselines. MedReCo-VLM achieved the best performance across all comparative generation evaluations and improved longitudinal follow-up accuracy by 14.5-46.5 percentage points on chest radiographs and 13.0-27.9 percentage points on CT. These findings suggest that entity-aware comparative reasoning can be learned from routine clinical data at scale and may provide a more clinically aligned foundation for medical imaging AI.
- Abstract(参考訳): 医用イメージング人工知能は、孤立した画像解釈において強い性能を発揮してきたが、診断と追跡が先行研究と類似の参照事例の比較に頼っているため、放射線学的な実践とは相容れないままである。
ここでは、エンティティ対応のクロスイメージ推論問題として放射線学的比較を定式化し、参照ケース検索と時間的比較解釈の両方をサポートするフレームワークを導入する。
我々はMedReCo-DBを構築した。MedReCo-DBは,8つの施設,4つの国,7つの画像モダリティにまたがる16万人以上の患者から690,000枚以上の画像から構成される,日常的なイメージレポート対から得られた大規模比較画像資源である。
報告は解剖学的構造, 異常所見, 病理状態に分解され, 実体条件検索と視覚的質問応答の監督を行う。
このリソースを用いて,臨床類似症例の検索を制御可能なエンティティ認識型ビジュアルエンコーダMedReCoと,間隔変化の生成的解釈のための視覚言語拡張MedReCo-VLMを開発した。
MedReCoは、内部、外部、およびセンター間の評価を通じて、12の内部検索設定すべてにおいて最も高いRecall@1を達成し、平均6.0ポイントで外部検索を改善した。
臨床的に不利な差分群では、最強の基線よりも一貫して優れていた。
MedReCo-VLMは、すべての比較生成評価において最高の性能を達成し、胸部X線写真では14.5-46.5、CTでは13.0-27.9の長手追跡精度を向上した。
これらの結果から, 実体認識比較推論は日常的な臨床データから学べることが示唆され, 医用画像AIのより臨床的に整合した基盤となる可能性が示唆された。
関連論文リスト
- WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning [0.39146761527401425]
WristMIRは、地域対応の小児手首画像検索フレームワークである。
手動のイメージレベルのアノテーションなしで、きめ細かい、臨床的に意味のある画像表現を学習する。
論文 参考訳(メタデータ) (2026-02-08T08:57:57Z) - Neural Discrete Representation Learning for Sparse-View CBCT Reconstruction: From Algorithm Design to Prospective Multicenter Clinical Evaluation [64.42236775544579]
コーンビームCT(CBCT)ガイド下穿刺は胸部腫瘍の診断・治療に確立されたアプローチとなっている。
DeepPriorCBCTは3段階のディープラーニングフレームワークであり、従来の放射線線量の6分の1しか使用せずに診断段階の再構築を実現する。
論文 参考訳(メタデータ) (2025-11-30T12:45:02Z) - DeepGI: Explainable Deep Learning for Gastrointestinal Image Classification [0.0]
この研究は、可変照明、ゆらぎのあるカメラアングル、頻繁な画像アーティファクトなど、一般的な内視鏡的課題に直面している。
最高性能のVGG16とMobileNetV2はそれぞれ96.5%の精度を達成した。
このアプローチには、Grad-CAM視覚化による説明可能なAIが含まれており、モデル予測に最も影響を及ぼす画像領域の識別を可能にする。
論文 参考訳(メタデータ) (2025-11-26T22:35:57Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。
しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。
今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文 参考訳(メタデータ) (2025-01-24T14:50:48Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - Region-based Contrastive Pretraining for Medical Image Retrieval with
Anatomic Query [56.54255735943497]
医用画像検索のための地域別コントラスト事前トレーニング(RegionMIR)
医用画像検索のための領域ベースコントラスト事前トレーニング(RegionMIR)について紹介する。
論文 参考訳(メタデータ) (2023-05-09T16:46:33Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。