論文の概要: A World Model of Radiologist Reading for Medical Image Representation Learning
- arxiv url: http://arxiv.org/abs/2605.23992v1
- Date: Sun, 17 May 2026 22:30:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.445603
- Title: A World Model of Radiologist Reading for Medical Image Representation Learning
- Title(参考訳): 医用画像表現学習のための放射線科医の世界モデル
- Authors: Yiwei Li, Zihao Wu, Huaqin Zhao, Yifan Zhou, Chao Cao, Dajiang Zhu, Tianming Liu, Lin Zhao,
- Abstract要約: 本稿では,この画像を世界として扱う医療画像世界モデルGazeWorldと,それを通して放射線技師の固定シーケンスを軌跡として提案する。
Frozen GazeWorldの機能は、CheXpert、RSNA Pneumonia、SIIM-ACR Pneumothoraxの9つの教師付き設定で、最先端の診断精度を実現する。
GazeSearchベンチマークでは、同じフリーズ機能でトレーニングされたジェネリックデコーダが、ScanMatchで16%、SEDで22%以上のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 20.27557376072225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiologist eye-tracking data provide a rich record of how experts search, compare, and accumulate evidence during image reading; yet, existing methods exploit this signal only partially, either as a static spatial prior or as an auxiliary prediction target decoupled from diagnosis. We propose GazeWorld, a medical imaging world model that treats the image as the world and the radiologist's fixation sequence as a trajectory through it. GazeWorld autoregressively predicts the latent representation of the next fixated patch from all previously visited ones, while a spatial-completion branch covers unvisited regions. At inference, GazeWorld generates a sequence of patch representations from the image alone without requiring real gaze data. Frozen GazeWorld features achieve state-of-the-art diagnostic accuracy across all nine supervised settings on CheXpert, RSNA Pneumonia, and SIIM-ACR Pneumothorax, as well as the highest zero-shot accuracy on all three benchmarks. On the GazeSearch benchmark, a generic decoder trained on the same frozen features outperforms the purpose-built LogitGaze-Med by over 16\% in ScanMatch and 22\% in SED, despite not being explicitly trained to predict gaze. GazeWorld demonstrates that modeling how experts read, not just what they conclude, offers a promising pretraining paradigm for medical imaging AI.
- Abstract(参考訳): 放射線学者の視線追跡データは、画像読取中に専門家がどのように証拠を検索し、比較し、蓄積するかの豊富な記録を提供するが、既存の手法では、この信号を部分的にのみ利用し、静的な空間的な先行として、あるいは診断から切り離された補助的な予測ターゲットとして利用している。
本稿では,この画像を世界として扱う医療画像世界モデルGazeWorldと,それを通して放射線技師の固定シーケンスを軌跡として提案する。
GazeWorldは、以前に訪れたすべてのパッチから、次の固定パッチの遅延表現を自動回帰的に予測する。
推測では、GazeWorldは実際の視線データを必要とせずに、画像からパッチ表現のシーケンスを生成する。
Frozen GazeWorldの機能は、CheXpert、RSNA Pneumonia、SIIM-ACR Pneumothoraxの9つの教師付き設定で最先端の診断精度を実現し、3つのベンチマークで最高のゼロショット精度を実現している。
GazeSearchベンチマークでは、同じフリーズ機能でトレーニングされたジェネリックデコーダが、ScanMatchで16倍、SEDで22倍以上のパフォーマンスを実現している。
GazeWorldは、専門家が何を結論づけるだけでなく、どのように読むかのモデリングが、医療画像AIのための有望な事前訓練パラダイムを提供することを実証している。
関連論文リスト
- Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning [13.62559208250024]
本稿では,放射線技師の眼球追跡データをモデル専門家による診断に先立つ行動として活用する視覚言語モデルであるGazeXを紹介する。
我々は,GazeXが放射線学報告の生成,疾患接地,視覚的質問応答において,より正確で,解釈可能で,専門家による一貫した出力を生成することを実証した。
論文 参考訳(メタデータ) (2026-04-15T18:19:05Z) - GazeVaLM: A Multi-Observer Eye-Tracking Benchmark for Evaluating Clinical Realism in AI-Generated X-Rays [11.033599265511851]
本稿では,胸部X線画像の信頼性評価における臨床的知覚を研究するための,パブリックアイトラッキングデータセットであるGazeVaLMを紹介する。
このデータセットは、30のリアルと30の合成胸部X線を解釈する16人の専門放射線学者による960の視線記録で構成されている。
画像とサーバのペアごとに、生の視線サンプル、固定マップ、スキャンパス、塩分密度マップ、構造化診断ラベル、認証判定を提供する。
論文 参考訳(メタデータ) (2026-04-13T16:05:45Z) - FixationFormer: Direct Utilization of Expert Gaze Trajectories for Chest X-Ray Classification [1.7004120188138268]
我々は、専門家の視線軌跡をトークンのシーケンスとして表現するトランスフォーマーベースのアーキテクチャであるFixationFormerを紹介した。
画像特徴と連動して視線シーケンスをモデル化することにより、視線データの空間性と変動性に対処する。
提案手法を3つのベンチマーク胸部X線データセット上で評価し,最先端の分類性能が得られたことを示す。
論文 参考訳(メタデータ) (2026-03-24T08:35:01Z) - THIR: Topological Histopathological Image Retrieval [0.7161783472741748]
THIRはコンテンツベースの医療画像検索フレームワークである。
完全に監督なしで運用されている。
標準CPUでデータセット全体を20分以内で処理する。
論文 参考訳(メタデータ) (2025-11-17T09:18:54Z) - A Graph-Based Framework for Interpretable Whole Slide Image Analysis [86.37618055724441]
我々は,全スライディング画像を生物学的にインフォームドされたグラフ表現に変換するフレームワークを開発した。
我々のアプローチは、任意の格子ではなく、自然構造を尊重する組織領域からグラフノードを構築する。
がんのステージングと生存予測の課題に強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-14T20:15:04Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - SSMD: Semi-Supervised Medical Image Detection with Adaptive Consistency
and Heterogeneous Perturbation [47.001609080453335]
SSMD(Semi-Supervised Medical Image Detector)を提案する。
SSMDの背後にあるモチベーションは、各位置での予測を一貫性のあるものにすることで、ラベルのないデータに対して、自由かつ効果的な監視を提供することである。
広範な実験結果から,提案したSSMDは,幅広い環境下での最先端性能を実現することが示唆された。
論文 参考訳(メタデータ) (2021-06-03T01:59:50Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。