Fugu-MT 論文翻訳(概要): Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning

論文の概要: Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning

arxiv url: http://arxiv.org/abs/2604.14316v1
Date: Wed, 15 Apr 2026 18:19:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 21:29:29.981116
Title: Seeing Through Experts Eyes A Foundational Vision Language Model Trained on Radiologists Gaze and Reasoning
Title（参考訳）: 放射線学者の視線と推論に基づく基礎的視覚言語モデル
Authors: Kinhei Lee, Peiyuan Jing, Zhenxuan Zhang, Yue Yang, Tao Wang, Dominic C Marshall, Yingying Fang, Guang Yang,
Abstract要約: 本稿では,放射線技師の眼球追跡データをモデル専門家による診断に先立つ行動として活用する視覚言語モデルであるGazeXを紹介する。我々は,GazeXが放射線学報告の生成,疾患接地,視覚的質問応答において,より正確で,解釈可能で,専門家による一貫した出力を生成することを実証した。
参考スコア（独自算出の注目度）: 13.62559208250024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large scale vision language models have shown promise in automating chest Xray interpretation, yet their clinical utility remains limited by a gap between model outputs and radiologist reasoning. Most systems optimize for semantic information without emulating how experts visually examine medical images, often overlooking critical findings or diverging from established diagnostic workflows. Radiologists follow structured protocols (e.g., the ABCDEF approach) that ensure all clinically relevant regions are systematically examined, reducing missed findings and supporting reliable diagnostic reasoning. We introduce GazeX, a vision language model that leverages radiologists' eye tracking data as a behavioral prior to model expert diagnostic reasoning. By incorporating gaze trajectories and fixation patterns into pretraining, GazeX learns to follow the spatial and temporal structure of radiologist attention and integrates observations in a clinically meaningful sequence. Using a curated dataset of over 30,000 gaze key frames from five radiologists, we demonstrate that GazeX produces more accurate, interpretable, and expert consistent outputs across radiology report generation, disease grounding, and visual question answering, utilizing 231,835 radiographic studies, 780,014 question answer pairs, and 1,162 image sentence pairs with bounding boxes. Unlike autonomous reporting systems, GazeX produces verifiable evidence artifacts, including inspection trajectories and finding linked localized regions, enabling efficient human verification and safe human AI collaboration. Learning through expert eyes provides a practical route toward more trustworthy, explainable, and diagnostically robust AI systems for radiology and beyond.
Abstract（参考訳）: 大規模視覚言語モデルでは胸部X線解釈の自動化が期待されているが、その臨床的有用性は、モデル出力と放射線医学的推論のギャップによって制限されている。ほとんどのシステムは、専門家が医療画像をどのように視覚的に検査するかをエミュレートすることなく、意味情報を最適化する。放射線医は、すべての臨床関連領域を体系的に検査し、発見の欠如を減らし、信頼性の高い診断推論をサポートする構造的プロトコル(ABCDEFアプローチなど)に従う。本稿では,放射線技師の眼球追跡データをモデル専門家による診断に先立つ行動として活用する視覚言語モデルであるGazeXを紹介する。 GazeXは、視線軌跡と固定パターンを事前訓練に取り入れることで、放射線科医の注意の空間的および時間的構造に従うことを学び、臨床的に意味のあるシーケンスで観察を統合する。 5人の放射線学者による3万以上の視線キーフレームのキュレートされたデータセットを用いて、GazeXは、放射線学レポートの生成、疾患の接地、視覚的質問応答、231,835件の放射線学研究、780,014件の質問応答対、境界ボックス付き1,162件の画像文対を用いて、より正確で、解釈可能で、一貫した出力を生成することを実証した。自律的な報告システムとは異なり、GazeXは検査軌跡やリンクされた局所領域の発見を含む検証可能な証拠成果物を生成し、効率的な人間の検証と安全な人間のAIコラボレーションを可能にしている。専門家の目を通して学ぶことは、放射線学などのための信頼性が高く、説明可能な、診断的に堅牢なAIシステムへの実践的な道のりを提供する。

関連論文リスト

GazeVaLM: A Multi-Observer Eye-Tracking Benchmark for Evaluating Clinical Realism in AI-Generated X-Rays [11.033599265511851]
本稿では,胸部X線画像の信頼性評価における臨床的知覚を研究するための,パブリックアイトラッキングデータセットであるGazeVaLMを紹介する。このデータセットは、30のリアルと30の合成胸部X線を解釈する16人の専門放射線学者による960の視線記録で構成されている。画像とサーバのペアごとに、生の視線サンプル、固定マップ、スキャンパス、塩分密度マップ、構造化診断ラベル、認証判定を提供する。
論文参考訳（メタデータ） (2026-04-13T16:05:45Z)
Seeing Like Radiologists: Context- and Gaze-Guided Vision-Language Pretraining for Chest X-rays [36.424685517493565]
CoGazeは、胸部X線のためのコンテキストおよびガゼ誘導視覚言語事前トレーニングフレームワークである。まず,放射線科医が臨床的コンテキストを統合する方法をモデル化したコンテキスト注入型視覚エンコーダを提案する。次に、モーダル内およびモーダル間セマンティックアライメントを強制するマルチレベル監視パラダイムを提案する。
論文参考訳（メタデータ） (2026-03-27T03:37:52Z)
RadFabric: Agentic AI System with Reasoning Capability for Radiology [61.25593938175618]
RadFabricは、総合的なCXR解釈のための視覚的およびテキスト分析を統合するマルチエージェント、マルチモーダル推論フレームワークである。システムは、病理診断に特殊なCXRエージェント、正確な解剖学的構造に視覚所見をマッピングする解剖学的解釈エージェント、および視覚的、解剖学的、臨床データを透明かつ証拠に基づく診断に合成する大規模なマルチモーダル推論モデルを利用した推論エージェントを使用する。
論文参考訳（メタデータ） (2025-06-17T03:10:33Z)
Decoding Radiologists' Intentions: A Novel System for Accurate Region Identification in Chest X-ray Image Analysis [2.207061125661163]
胸部X線(CXR)画像解析では、放射線技師は様々な領域を慎重に観察し、レポートにその観察を記録している。 CXR診断における誤りの頻度、特に経験の浅い放射線科医や病院の住民は、放射線科医の意図とそれに伴う関心領域を理解することの重要性を強調している。本報告では, 放射線技師がCXR画像に対する関心領域について, 主観的意図を識別するシステムを提案する。
論文参考訳（メタデータ） (2024-04-29T15:18:26Z)
Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。 MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文参考訳（メタデータ） (2024-04-10T07:41:35Z)
I-AI: A Controllable & Interpretable AI System for Decoding Radiologists' Intense Focus for Accurate CXR Diagnoses [9.260958560874812]
解釈可能な人工知能(I-AI)は、新しく統一された制御可能な解釈可能なパイプラインである。私たちのI-AIは、放射線科医がどこに見えるか、特定の領域にどのくらい焦点を合わせるか、どの発見を診断するか、という3つの重要な疑問に対処しています。
論文参考訳（メタデータ） (2023-09-24T04:48:44Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Act Like a Radiologist: Radiology Report Generation across Anatomical Regions [50.13206214694885]
X-RGenは6つの解剖学的領域にわたる放射線学者によるレポート生成フレームワークである。 X-RGenでは、ヒトの放射線学者の行動を模倣し、これらを4つの主要な段階に分解する。画像エンコーダの認識能力は,各領域にまたがる画像やレポートを分析して向上する。
論文参考訳（メタデータ） (2023-05-26T07:12:35Z)
Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文参考訳（メタデータ） (2022-09-28T10:27:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。