論文の概要: Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2505.23143v1
- Date: Thu, 29 May 2025 06:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.712833
- Title: Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning
- Title(参考訳): 放射線科医のような胸部X線を解釈する:臨床推論のベンチマーク
- Authors: Jinquan Guan, Qi Chen, Lizhou Liang, Yuhang Liu, Vu Minh Hieu Phan, Minh-Son To, Jian Chen, Yutong Xie,
- Abstract要約: 胸部X線(CXR)解釈のための新しい多段階視覚質問応答(VQA)データセットであるCXRTrekを提案する。
このデータセットは、現実の臨床環境で放射線技師が使用する診断的推論プロセスを明示的にシミュレートするように設計されている。
本稿では,新たな視覚言語大モデル (VLLM) であるCXRTrekNetを提案する。
- 参考スコア(独自算出の注目度): 18.15610003617933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence (AI)-based chest X-ray (CXR) interpretation assistants have demonstrated significant progress and are increasingly being applied in clinical settings. However, contemporary medical AI models often adhere to a simplistic input-to-output paradigm, directly processing an image and an instruction to generate a result, where the instructions may be integral to the model's architecture. This approach overlooks the modeling of the inherent diagnostic reasoning in chest X-ray interpretation. Such reasoning is typically sequential, where each interpretive stage considers the images, the current task, and the contextual information from previous stages. This oversight leads to several shortcomings, including misalignment with clinical scenarios, contextless reasoning, and untraceable errors. To fill this gap, we construct CXRTrek, a new multi-stage visual question answering (VQA) dataset for CXR interpretation. The dataset is designed to explicitly simulate the diagnostic reasoning process employed by radiologists in real-world clinical settings for the first time. CXRTrek covers 8 sequential diagnostic stages, comprising 428,966 samples and over 11 million question-answer (Q&A) pairs, with an average of 26.29 Q&A pairs per sample. Building on the CXRTrek dataset, we propose a new vision-language large model (VLLM), CXRTrekNet, specifically designed to incorporate the clinical reasoning flow into the VLLM framework. CXRTrekNet effectively models the dependencies between diagnostic stages and captures reasoning patterns within the radiological context. Trained on our dataset, the model consistently outperforms existing medical VLLMs on the CXRTrek benchmarks and demonstrates superior generalization across multiple tasks on five diverse external datasets. The dataset and model can be found in our repository (https://github.com/guanjinquan/CXRTrek).
- Abstract(参考訳): 人工知能 (AI) ベースの胸部X線解析アシスタント (CXR) は大きな進歩を示し, 臨床応用が進んでいる。
しかし、現代の医療用AIモデルは、イメージと結果を生成する命令を直接処理し、モデルアーキテクチャに不可欠な命令を生成するという、単純化された入出力パラダイムに固執することが多い。
この手法は胸部X線解釈における固有の診断的推論のモデル化を見落としている。
このような推論は典型的にはシーケンシャルで、各解釈段階は、画像、現在のタスク、および前のステージからのコンテキスト情報を考える。
この監視は、臨床シナリオのミスアライメント、文脈のない推論、追跡不能なエラーなど、いくつかの欠点をもたらす。
このギャップを埋めるために、我々はCXR解釈のための新しい多段階視覚質問応答(VQA)データセットであるCXRTrekを構築した。
このデータセットは、放射線科医が実際に臨床現場で使用する診断的推論プロセスを、初めて明示的にシミュレートするように設計されている。
CXRTrekは428,966のサンプルと1100万以上のQ&Aペアで構成され、平均26.29のQ&Aペアをカバーしている。
CXRTrekデータセットに基づいて、臨床推論フローをVLLMフレームワークに組み込むように設計された新しい視覚言語大モデル(VLLM)CXRTrekNetを提案する。
CXRTrekNetは、診断段階間の依存関係を効果的にモデル化し、放射線学的コンテキスト内の推論パターンをキャプチャする。
我々のデータセットに基づいてトレーニングされたこのモデルは、CXRTrekベンチマークで既存の医療用VLLMを一貫して上回り、5つの異なる外部データセット上で複数のタスクにまたがる優れた一般化を示す。
データセットとモデルは、私たちのリポジトリ(https://github.com/guanjinquan/CXRTrek)で参照できます。
関連論文リスト
- CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays [9.051771615770075]
我々はCheXStructとCXReasonBenchを紹介した。CheXStructはMIMIC-CXR-JPGデータセット上に構築された構造化パイプラインとベンチマークである。
CheXStructは、自動的に胸部X線から直接中間的推論ステップを導出する。
CXReasonBenchはこのパイプラインを利用して、モデルが臨床的に有効な推論ステップを実行可能であるかどうかを評価する。
論文 参考訳(メタデータ) (2025-05-23T16:44:21Z) - Towards Interpretable Radiology Report Generation via Concept Bottlenecks using a Multi-Agentic RAG [1.9374282535132377]
本研究では, レポート生成のための概念ボトルネックモデル(CBM)とマルチエージェント検索・拡張生成システム(RAG)を用いて, 胸部X線分類(CXR)の解釈可能性を向上させる。
視覚特徴と臨床概念の関係をモデル化することにより,多エージェントRAGシステムで放射線診断レポートを生成するための解釈可能な概念ベクトルを作成する。
論文 参考訳(メタデータ) (2024-12-20T17:33:50Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - MLVICX: Multi-Level Variance-Covariance Exploration for Chest X-ray Self-Supervised Representation Learning [6.4136876268620115]
MLVICXは、胸部X線画像からの埋め込みの形でリッチな表現をキャプチャするアプローチである。
自己教師付き胸部X線表現学習におけるMLVICXの性能を示す。
論文 参考訳(メタデータ) (2024-03-18T06:19:37Z) - Instrumental Variable Learning for Chest X-ray Classification [52.68170685918908]
本稿では,素因果関係を排除し,正確な因果表現を得るための解釈可能な機器変数(IV)学習フレームワークを提案する。
提案手法の性能はMIMIC-CXR,NIH ChestX-ray 14,CheXpertデータセットを用いて実証した。
論文 参考訳(メタデータ) (2023-05-20T03:12:23Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Improving Chest X-Ray Classification by RNN-based Patient Monitoring [0.34998703934432673]
我々は、診断に関する情報がCNNに基づく画像分類モデルを改善する方法について分析する。
追加の患者履歴情報に基づいてトレーニングされたモデルが、情報のないトレーニングを受けたモデルよりも有意なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-10-28T11:47:15Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - BS-Net: learning COVID-19 pneumonia severity on a large Chest X-Ray
dataset [6.5800499500032705]
我々は、Chest X-rays画像(CXR)に基づいて、新型コロナウイルス患者の肺妥協の度合いを判定するエンド・ツー・エンドのディープラーニングアーキテクチャを設計する。
当院で収集した約5,000個のCXR注釈画像の臨床的データセットを利用して検討した。
私たちのソリューションは、評価精度と一貫性において、一人のアノテータよりも優れています。
論文 参考訳(メタデータ) (2020-06-08T13:55:58Z) - Deep Mining External Imperfect Data for Chest X-ray Disease Screening [57.40329813850719]
我々は、外部のCXRデータセットを組み込むことで、不完全なトレーニングデータにつながると論じ、課題を提起する。
本研究は,多ラベル病分類問題を重み付き独立二分課題として分類する。
我々のフレームワークは、ドメインとラベルの相違を同時にモデル化し、対処し、優れた知識マイニング能力を実現する。
論文 参考訳(メタデータ) (2020-06-06T06:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。