論文の概要: MI-CXR: A Benchmark for Longitudinal Reasoning over Multi-Interval Chest X-rays
- arxiv url: http://arxiv.org/abs/2605.15574v1
- Date: Fri, 15 May 2026 03:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.155776
- Title: MI-CXR: A Benchmark for Longitudinal Reasoning over Multi-Interval Chest X-rays
- Title(参考訳): MI-CXR:マルチインターバル胸部X線を用いた縦型推論のためのベンチマーク
- Authors: Sunghwan Steve Cho, Yunseok Han, Jaeyoung Do,
- Abstract要約: マルチビジットCXRシークエンスにおける長手推論の標準化評価のためのベンチマークであるMI-CXRを紹介する。
MI-CXRは5ビジットの患者タイムラインに5方向の多重選択質問を含む。
14の最先端のビジョン言語モデルを評価すると、全体的な性能は低く、平均精度は29.3%、ランダムな推測よりもわずかに高い。
- 参考スコア(独自算出の注目度): 5.631048557031927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Longitudinal chest X-ray (CXR) interpretation requires reasoning over disease evolution across multiple patient visits, yet most existing medical VQA benchmarks focus on single images or short-horizon image pairs. We introduce MI-CXR, a benchmark for standardized evaluation of Multi-Interval longitudinal reasoning over multi-visit CXR sequences, without requiring free-form report generation or additional clinical context. MI-CXR comprises five-way multiple-choice questions over five-visit patient timelines and instantiates three complementary task families: Temporal Event Localization, Interval-wise Change Reasoning, and Global Trajectory Summarization, which assess clinically grounded visual reasoning over time. Evaluating 14 state-of-the-art vision-language models (VLMs) shows low overall performance, with an average accuracy of 29.3%, only modestly above random guessing. Using stage-wise diagnostic probing, we find that models often produce locally plausible interval descriptions but fail to enforce temporal constraints or compose evidence into globally consistent decisions over the full timeline. These findings reveal key limitations of current VLMs and establish MI-CXR as a principled benchmark for longitudinal medical reasoning. The benchmark is available at https://github.com/AIDASLab/MI-CXR
- Abstract(参考訳): 経時的胸部X線(CXR)の解釈では、複数の患者訪問で疾患の進化を推理する必要があるが、既存の医療用VQAベンチマークでは、単一の画像や短水平画像のペアに焦点を当てている。
マルチビジットCXRシークエンスに対するマルチインターバル長手推論の標準化評価のためのベンチマークであるMI-CXRを,フリーフォームレポート生成や追加臨床コンテキストを必要とせずに導入する。
MI-CXRは5人の患者タイムライン上の5方向の多重選択質問からなり、3つの補完的なタスクファミリーをインスタンス化する。
14の最先端の視覚言語モデル (VLM) を評価すると、全体の性能は低く、平均精度は29.3%であり、ランダムな推測よりもわずかに上である。
段階的診断探索を用いて、モデルはしばしば局所的に妥当な区間記述を生成するが、時間的制約を強制したり、全タイムライン上で一貫した決定にエビデンスを構成することに失敗する。
これらの結果から, 経時的医学的推論の基準としてMI-CXRが確立されている。
ベンチマークはhttps://github.com/AIDASLab/MI-CXRで公開されている。
関連論文リスト
- MedHorizon: Towards Long-context Medical Video Understanding in the Wild [78.79695798197447]
実際の臨床検査には、フルプロデュースなビデオ理解が必要であることが多い。
既存のベンチマークでは、この証拠はすでに画像やショートクリップ、あるいは事前にセグメンテーションされたビデオを通じてローカライズされていると仮定することが多い。
MedHorizonは、長文医用ビデオ理解のためのWildベンチマークである。
論文 参考訳(メタデータ) (2026-05-07T16:37:10Z) - X-PCR: A Benchmark for Cross-modality Progressive Clinical Reasoning in Ophthalmic Diagnosis [44.51033719890023]
完全眼科診断ワークフローによる多モード大言語モデル (MLLM) の総合的評価として, クロスモーダルプログレッシブ・クリニカル推論 (X-PCR) ベンチマークを導入する。
ベンチマークは26,415枚の画像と、51の公開データセットからキュレートされた専門家によるVQAペア177,868枚で構成され、52の眼科疾患をカバーしている。
21個のMLLMの評価は、進行的推論とクロスモーダルな統合において重要なギャップを露呈する。
論文 参考訳(メタデータ) (2026-04-22T08:52:50Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - Overview of the CXR-LT 2026 Challenge: Multi-Center Long-Tailed and Zero Shot Chest X-ray Classification [14.263392973355666]
我々は,CXR-LT 2026チャレンジを提示する。
このベンチマークの第3回では、PadChestとNIH Chest X線データセットから145,000以上のイメージで構成されるマルチセンターデータセットが導入されている。
課題は,(1)既知の30のクラスに対するロバストなマルチラベル分類,(2)未発見の6つのレアな病気クラスへのオープンワールド一般化,の2つの中核課題を定義する。
トップパフォーマンスチームの結果を報告し、平均的平均精度(mAP)、AUROC、F1スコアで評価する。
論文 参考訳(メタデータ) (2026-02-25T16:39:21Z) - From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG [65.0203623486525]
大規模言語モデル(LLM)は、医学的質問応答において高い推論能力を示す。
幻覚や時代遅れの知識を生み出す傾向は、医療分野において重大なリスクをもたらす。
既存の手法はノイズの多いトークンレベルの信号に依存しており、複雑な推論に必要なマルチラウンドの改良は欠如している。
論文 参考訳(メタデータ) (2026-02-06T08:25:30Z) - XBench: A Comprehensive Benchmark for Visual-Language Explanations in Chest Radiography [6.447908430647854]
胸部X線におけるクロスモーダル解釈性を評価するための最初の体系的ベンチマークを示す。
我々は,クロスアテンションと類似性に基づくローカライズマップを用いた視覚的説明を生成する。
複数の病理組織を横断する放射線診断領域とのアライメントを定量的に評価した。
論文 参考訳(メタデータ) (2025-10-22T13:52:19Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - Interpreting Chest X-rays Like a Radiologist: A Benchmark with Clinical Reasoning [18.15610003617933]
胸部X線(CXR)解釈のための新しい多段階視覚質問応答(VQA)データセットであるCXRTrekを提案する。
このデータセットは、現実の臨床環境で放射線技師が使用する診断的推論プロセスを明示的にシミュレートするように設計されている。
本稿では,新たな視覚言語大モデル (VLLM) であるCXRTrekNetを提案する。
論文 参考訳(メタデータ) (2025-05-29T06:30:40Z) - HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。
胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。
特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文 参考訳(メタデータ) (2024-12-15T06:04:16Z) - M4CXR: Exploring Multi-task Potentials of Multi-modal Large Language Models for Chest X-ray Interpretation [0.0]
M4CXRは胸部X線(CXR)の解釈を強化するために設計された多モード大言語モデル(LLM)である。
このモデルは、医療報告生成(MRG)、視覚的接地、視覚的質問応答(VQA)などの複数のタスクをサポートする。
M4CXRは、チェーン・オブ・シークレット・プロンプト戦略を用いて、MRGの最先端の臨床精度を達成する。
論文 参考訳(メタデータ) (2024-08-29T02:12:58Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。