論文の概要: Thinking Like a Radiologist: A Dataset for Anatomy-Guided Interleaved Vision Language Reasoning in Chest X-ray Interpretation
- arxiv url: http://arxiv.org/abs/2602.12843v1
- Date: Fri, 13 Feb 2026 11:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.937765
- Title: Thinking Like a Radiologist: A Dataset for Anatomy-Guided Interleaved Vision Language Reasoning in Chest X-ray Interpretation
- Title(参考訳): 放射線科医としての思考:胸部X線解釈における解剖誘導視覚言語推論のためのデータセット
- Authors: Yichen Zhao, Zelin Peng, Piao Yang, Xiaokang Yang, Wei Shen,
- Abstract要約: 放射線診断は視覚検査と言語推論を繰り返す知覚過程である。
MMRad-IVL-22Kは,胸部X線解釈における視覚言語推論のための大規模データセットである。
- 参考スコア(独自算出の注目度): 40.235535792762285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Radiological diagnosis is a perceptual process in which careful visual inspection and language reasoning are repeatedly interleaved. Most medical large vision language models (LVLMs) perform visual inspection only once and then rely on text-only chain-of-thought (CoT) reasoning, which operates purely in the linguistic space and is prone to hallucination. Recent methods attempt to mitigate this issue by introducing visually related coordinates, such as bounding boxes. However, these remain a pseudo-visual solution: coordinates are still text and fail to preserve rich visual details like texture and density. Motivated by the interleaved nature of radiological diagnosis, we introduce MMRad-IVL-22K, the first large-scale dataset designed for natively interleaved visual language reasoning in chest X-ray interpretation. MMRad-IVL-22K reflects a repeated cycle of reasoning and visual inspection workflow of radiologists, in which visual rationales complement textual descriptions and ground each step of the reasoning process. MMRad-IVL-22K comprises 21,994 diagnostic traces, enabling systematic scanning across 35 anatomical regions. Experimental results on advanced closed-source LVLMs demonstrate that report generation guided by multimodal CoT significantly outperforms that guided by text-only CoT in clinical accuracy and report quality (e.g., 6\% increase in the RadGraph metric), confirming that high-fidelity interleaved vision language evidence is a non-substitutable component of reliable medical AI. Furthermore, benchmarking across seven state-of-the-art open-source LVLMs demonstrates that models fine-tuned on MMRad-IVL-22K achieve superior reasoning consistency and report quality compared with both general-purpose and medical-specific LVLMs. The project page is available at https://github.com/qiuzyc/thinking_like_a_radiologist.
- Abstract(参考訳): 放射線診断は視覚検査と言語推論を繰り返す知覚過程である。
ほとんどの医療用大規模視覚言語モデル(LVLM)は、一度だけ視覚検査を行い、その後、純粋に言語空間で機能し、幻覚を起こす傾向があるテキストのみのチェーン・オブ・シークレット(CoT)推論に依存している。
近年の手法では、境界ボックスなどの視覚的関連座標を導入してこの問題を緩和しようとしている。
座標はまだテキストであり、テクスチャや密度といったリッチな視覚的詳細を保存できない。
MMRad-IVL-22Kは胸部X線解釈における視覚言語推論のための大規模データセットである。
MMRad-IVL-22Kは、放射線学者の推論と視覚検査の繰り返しのサイクルを反映し、視覚的理性は推論過程の各ステップのテキスト記述と接地を補完する。
MMRad-IVL-22Kは21,994個の診断痕跡からなり、35の解剖学的領域にわたって系統的なスキャンを可能にする。
先進的なクローズドソースLVLM実験の結果,テキストのみのCoTによるレポート生成は臨床精度と報告品質(RadGraph測定値の6\%増加など)において有意に優れており,高忠実なインターリーブ型視覚言語証拠が信頼性の高い医療用AIの代替不可能な構成要素であることが確認された。
さらに、7つの最先端のオープンソースLVLMのベンチマークにより、MMRad-IVL-22Kで微調整されたモデルは、汎用LVLMと医用LVLMのどちらよりも優れた推論一貫性と報告品質が得られることが示された。
プロジェクトページはhttps://github.com/qiuzyc/thinking_like_a_radiologistで公開されている。
関連論文リスト
- XBench: A Comprehensive Benchmark for Visual-Language Explanations in Chest Radiography [6.447908430647854]
胸部X線におけるクロスモーダル解釈性を評価するための最初の体系的ベンチマークを示す。
我々は,クロスアテンションと類似性に基づくローカライズマップを用いた視覚的説明を生成する。
複数の病理組織を横断する放射線診断領域とのアライメントを定量的に評価した。
論文 参考訳(メタデータ) (2025-10-22T13:52:19Z) - RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。
本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文 参考訳(メタデータ) (2025-01-13T17:55:32Z) - Intensive Vision-guided Network for Radiology Report Generation [22.030289124516326]
医用画像エンコーダにおける多視点視覚知覚をシミュレートし統合するためのGIAモジュールを提案する。
また,複数モーダル信号を用いて正確な一致したレポートを生成する方法,すなわち,予測済みの単語を領域認識型視覚コンテンツと統合して次の単語予測を行う方法について検討する。
論文 参考訳(メタデータ) (2024-02-06T06:46:46Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。