論文の概要: GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI
- arxiv url: http://arxiv.org/abs/2605.00876v1
- Date: Sat, 25 Apr 2026 13:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.437331
- Title: GAZE: Grounded Agentic Zero-shot Evaluation with Viewer-Level Tools and Literature Retrieval on Rare Brain MRI
- Title(参考訳): GAZE:ビューアレベルツールを用いた接地型ゼロショット評価と希少脳MRIによる文献検索
- Authors: Duaa Alim, Mogtaba Alim, Liam Chalcroft,
- Abstract要約: 視覚言語モデル(VLM)は画像を読み、単一の前方通過でテキストを生成するのに対し、放射線学者は通常、画像を調べてレポートを書く前に文献を参照する。
我々は,米国国立医学図書館が支援するビューアーレベルのツールと2つの検索ツールをコールすることで,医療用VLMをこの反復的な方法で動作させるフレームワークであるGAZEを紹介する。
NOVAでは、281の稀な神経疾患を含む906例の脳MRIのベンチマークで、GAZEは、病変の局在と病変の局在を共通点(IoU)0.3で58.2の平均精度(mAP)に達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) read an image and produce text in a single forward pass, whereas radiologists typically inspect an image several times and consult the literature before writing a report. We introduce GAZE (Grounded Agentic Zero-shot Evaluation), a framework that lets a medical VLM work in this iterative way by calling viewer-level tools (zoom, windowing, contrast, edge detection) and two retrieval tools backed by the U.S. National Library of Medicine (PubMed for medical literature, Open-i for radiological images), with structured outputs validated against a schema and full tool-call traces recorded for auditability. On NOVA, a benchmark of 906 brain MRI cases covering 281 rare neurological conditions, GAZE reaches 58.2 mean average precision (mAP) at intersection-over-union (IoU) 0.3 for lesion localisation and 34.9% Top-1 diagnostic accuracy under a joint protocol that scores captioning, diagnosis, and localisation from the image alone, without task-specific fine-tuning. Before any tool is used, structured prompting and schema-validated outputs already improve over the published Gemini 2.0 Flash baseline (20.2 to 29.4 mAP@0.3), so framework design is itself an experimental variable. Tool use helps rare pathologies disproportionately: the fraction of cases with IoU > 0.3 rises from 17% to 58% for diagnoses with three or fewer examples versus 25% to 68% for common conditions ($\geq$10 cases), with gains tracking engagement (Gemini 3 Flash: Cohen's d = 0.79, 11.8 tool calls per case; Gemini 2.0 Flash: tools used in 8.2% of cases, no significant benefit). Retrieval ablations additionally reveal a model-dependent trade-off in which gains in diagnosis can coincide with losses in localisation, reinforcing the case for joint evaluation of diagnosis, localisation, and captioning in medical VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)は画像を読み、単一の前方通過でテキストを生成するのに対し、放射線学者は通常、画像を調べてレポートを書く前に文献を参照する。
GAZE(Grounded Agentic Zero-shot Evaluation)は,米国国立医学図書館(PubMed for Medical literature, Open-i for Radiological images)が支援する,ビューアーレベルのツール(ズーム,ウィンドウニング,コントラスト,エッジ検出)と2つの検索ツールを,スキーマと監査のためのフルツールコールトレースに対して構造化された出力で呼び出す,この反復的な手法で医療用VLMを動作させるフレームワークである。
NOVAでは、281の稀な神経疾患をカバーする906の脳MRIのベンチマークで、GAZEは、病変の局所化(IoU)0.3で58.2の平均的精度(mAP)に達し、Top-1の診断精度は34.9%である。
ツールを使用する前に、構造化プロンプトとスキーマ検証された出力は、公開されたGemini 2.0 Flashベースライン(20.2から29.4 mAP@0.3)よりも既に改善されている。
IoU > 0.3の症例は3つ以上の例で17%から58%に増加し、一般的な状況では25%から68%になった(\geq$10)。
さらに, 検索基準では, 診断の利得が局所化の損失と一致し, 診断, 局所化, 字幕化の同時評価が強化されるモデル依存的トレードオフが明らかとなった。
関連論文リスト
- Opportunistic Bone-Loss Screening from Routine Knee Radiographs Using a Multi-Task Deep Learning Framework with Sensitivity-Constrained Threshold Optimization [9.995968038491128]
変形性骨折を発症するまで、骨粗しょう症や骨減少症は診断されないことが多い。
変形性膝関節症評価のために, 膝X線撮影を行った。
単一チャネルグレースケール膝X線撮影のためのマルチタスクフレームワークSTR-Netを開発した。
論文 参考訳(メタデータ) (2026-04-22T07:12:04Z) - Learning to Read Where to Look: Disease-Aware Vision-Language Pretraining for 3D CT [26.700589589723887]
1つの病院で収集した 98k レポートボリューム対 (50k 患者) の 3 次元CT 画像言語モデルを訓練した。
CT-RATEでは,最先端のテキスト画像検索と競合疾患分類を実現している。
論文 参考訳(メタデータ) (2026-03-02T16:10:17Z) - Automated Radiographic Total Sharp Score (ARTSS) in Rheumatoid Arthritis: A Solution to Reduce Inter-Intra Reader Variation and Enhancing Clinical Practice [3.8516555293145345]
本研究では、深層学習を利用して全手X線画像を解析する自動放射線シャープ符号化フレームワークを提案する。
I) ResNet50, II) UNet.3, III) YOLOv7, IV) VGG16, VGG19, ResNet50, DenseNet201, EfficientNetB0, Vision Transformer (ViT) などのモデルを用いた手指分割による手指識別
論文 参考訳(メタデータ) (2025-09-08T16:21:45Z) - Text Embedded Swin-UMamba for DeepLesion Segmentation [6.654483111362868]
大きな言語モデル(LLM)を病変分割ワークフローに統合することで、画像特徴と放射線診断レポートからの病変特性の記述を組み合わせることができる。
本研究では,病変分割作業におけるSwin-UMambaアーキテクチャへのテキスト統合の可能性について検討した。
論文 参考訳(メタデータ) (2025-08-08T16:54:06Z) - Towards a Holistic Framework for Multimodal Large Language Models in Three-dimensional Brain CT Report Generation [42.06416052431378]
2Dラジオグラフィーキャプションは、ボリューム3D解剖学における現実の診断課題を反映するものではない。
我々は18,885組の3D-BrainCTデータセットを収集し,臨床ビジュアルインストラクション・チューニングを用いて,脳波モデルを用いて放射線治療を施した3D脳CTレポートを作成した。
私たちの研究は、3Dの脳CTデータセットのキュレーション、微調整による解剖学的意味のある言語モデル、堅牢な放射線学評価指標の提案など、総合的な枠組みを具現化したものです。
論文 参考訳(メタデータ) (2024-07-02T12:58:35Z) - TotalSegmentator MRI: Robust Sequence-independent Segmentation of Multiple Anatomic Structures in MRI [59.86827659781022]
nnU-Netモデル(TotalSegmentator)をMRIおよび80原子構造で訓練した。
予測されたセグメンテーションと専門家基準セグメンテーションとの間には,ディススコアが算出され,モデル性能が評価された。
オープンソースで使いやすいモデルは、80構造の自動的で堅牢なセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2024-05-29T20:15:54Z) - CT-GLIP: 3D Grounded Language-Image Pretraining with CT Scans and Radiology Reports for Full-Body Scenarios [53.94122089629544]
我々は,CT-GLIP(Grounded Language- Image Pretraining with CT scans)を導入する。
本手法は,104臓器にわたる17,702症例を対象に,44,011例の臓器レベルの視覚テキストペアからなるマルチモーダルCTデータセットを用いて訓練し,自然言語を用いて臓器と異常をゼロショットで識別できることを実証した。
論文 参考訳(メタデータ) (2024-04-23T17:59:01Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - Automated SSIM Regression for Detection and Quantification of Motion
Artefacts in Brain MR Images [54.739076152240024]
磁気共鳴脳画像における運動アーチファクトは重要な問題である。
MR画像の画質評価は,臨床診断に先立って基本的である。
構造類似度指数(SSIM)回帰に基づく自動画像品質評価法が提案されている。
論文 参考訳(メタデータ) (2022-06-14T10:16:54Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。