論文の概要: Automated Report-Derived Oncology VQA Benchmark for Evaluating Vision-Language Models on 3D Medical Imaging
- arxiv url: http://arxiv.org/abs/2606.02809v1
- Date: Mon, 01 Jun 2026 19:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.563416
- Title: Automated Report-Derived Oncology VQA Benchmark for Evaluating Vision-Language Models on 3D Medical Imaging
- Title(参考訳): 3次元医用画像における視線モデル評価のための自動オンコロジーVQAベンチマーク
- Authors: Bo Liu, Hanxue Gu, Xiangru Li, Zheren Zhu, Jacob Ellison, Kang Wang, Janine M. Lupo, Yang Yang, Hui Lin,
- Abstract要約: 医用画像上での視覚言語モデル (VLM) の評価には、臨床的に基礎を置き、拡張性があり、評価のために制御されるベンチマークが必要である。
本稿では,2つのプライベートラジオグラフィーレポートと3Dオンコロジーイメージングから直接,複数選択VQAデータセットを生成する自動エージェント駆動パイプラインを提案する。
- 参考スコア(独自算出の注目度): 10.149461900482192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating vision-language models (VLMs) on medical images requires benchmarks that are clinically grounded, scalable, and controlled for evaluation confounds. Existing public benchmarks are limited in scale, manually annotated, or potentially leaked into VLM pretraining corpora. We present an automated agent-driven pipeline that generates multiple-choice VQA datasets directly from paired private radiology reports and 3D oncology imaging, producing two complementary question types: RADS-style questions deterministically derived from clinician-defined reporting schemas, and radiology report-derived questions generated by an LLM from radiologist findings and verified against the source report. Applied to four in-house cancer cohorts, the pipeline yields an instance-contamination-controlled benchmark without per-question human annotation. Zero-shot evaluation of six VLMs reveals no dominant model and substantial headroom across all cells. A blind ablation reveals that visual reliance is highly dataset-specific: liver Report-derived questions genuinely require the image, while Lung CT is essentially solvable without it - the leading closed model exceeds its sighted accuracy on Lung CT when blinded - indicating that even private clinical data does not guarantee a contamination-controlled read of visual capability. The pipeline is released as an open agent skill for in-house redeployment.
- Abstract(参考訳): 医用画像上での視覚言語モデル (VLM) の評価には、臨床的に基礎を置き、拡張性があり、評価のために制御されるベンチマークが必要である。
既存の公開ベンチマークは、スケール、手動の注釈付け、あるいは潜在的にVLM事前訓練コーパスにリークする可能性がある。
本稿では,2組のプライベートラジオグラフィーレポートと3Dオンコロジーイメージングから直接,複数項目のVQAデータセットを生成する自動エージェント駆動パイプラインを提案する。
4つの社内がんコホートに適用されたパイプラインは、クエクション当たりの人間のアノテーションなしでインスタンス汚染制御されたベンチマークを生成する。
6つのVLMのゼロショット評価は、すべての細胞に支配的なモデルと実質的なヘッドルームを示さない。
肝臓 レポート由来の質問は、実際に画像を必要とするのに対して、Lung CTは本質的に解決可能であり、目隠しされた場合、リードクローズドモデルは、Lung CTの視線精度を上回り、プライベートな臨床データでさえ、視力の汚染制御された読み取りを保証していないことを示している。
パイプラインは、社内再デプロイのためのオープンエージェントスキルとしてリリースされている。
関連論文リスト
- MedScribe: Clinically Grounded CT Reporting through Agentic Workflows [13.40306812882295]
視覚言語モデル(VLM)は、自動放射線診断レポート生成の可能性を示している。
我々は,仮説駆動型フレームワークであるMedScribeを紹介し,レポート生成を反復的証拠取得プロセスとして再構築する。
論文 参考訳(メタデータ) (2026-05-03T08:32:40Z) - GazeVaLM: A Multi-Observer Eye-Tracking Benchmark for Evaluating Clinical Realism in AI-Generated X-Rays [11.033599265511851]
本稿では,胸部X線画像の信頼性評価における臨床的知覚を研究するための,パブリックアイトラッキングデータセットであるGazeVaLMを紹介する。
このデータセットは、30のリアルと30の合成胸部X線を解釈する16人の専門放射線学者による960の視線記録で構成されている。
画像とサーバのペアごとに、生の視線サンプル、固定マップ、スキャンパス、塩分密度マップ、構造化診断ラベル、認証判定を提供する。
論文 参考訳(メタデータ) (2026-04-13T16:05:45Z) - Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - Dia-LLaMA: Towards Large Language Model-driven CT Report Generation [4.634780391920529]
診断情報をガイダンスとして組み込むことで,CTレポート生成にLLaMA2-7Bを適用するためのフレームワークであるDia-LLaMAを提案する。
我々は,CTの高次元を考慮し,事前学習したVT3Dと知覚器を併用して視覚情報を抽出する。
報告生成のためのLCMを調整し,異常を強調するため,病原体記憶バンクを参照して,追加の診断情報を抽出する。
論文 参考訳(メタデータ) (2024-03-25T03:02:51Z) - How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses [14.884877292068351]
本研究ではGPTRadScore'という新しい評価フレームワークを紹介する。
GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFMといったマルチモーダルLCMの、将来的な発見のための記述を生成する能力を評価する。
GPT-4に基づく分解手法を用いて、GPTRadScoreは生成した記述をゴールドスタンダードのレポート文と比較し、その精度を身体部分、位置、発見の種類で分析する。
論文 参考訳(メタデータ) (2024-03-08T21:16:28Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。