論文の概要: Seeing Like Radiologists: Context- and Gaze-Guided Vision-Language Pretraining for Chest X-rays
- arxiv url: http://arxiv.org/abs/2603.26049v1
- Date: Fri, 27 Mar 2026 03:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.346553
- Title: Seeing Like Radiologists: Context- and Gaze-Guided Vision-Language Pretraining for Chest X-rays
- Title(参考訳): 放射線科医のように見る:胸部X線に対するコンテクストと迷路誘導視線前処理
- Authors: Kang Liu, Zhuoqi Ma, Siyu Liang, Yunan Li, Xiyue Gao, Chao Liang, Kun Xie, Qiguang Miao,
- Abstract要約: CoGazeは、胸部X線のためのコンテキストおよびガゼ誘導視覚言語事前トレーニングフレームワークである。
まず,放射線科医が臨床的コンテキストを統合する方法をモデル化したコンテキスト注入型視覚エンコーダを提案する。
次に、モーダル内およびモーダル間セマンティックアライメントを強制するマルチレベル監視パラダイムを提案する。
- 参考スコア(独自算出の注目度): 36.424685517493565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in medical vision-language pretraining, existing models still struggle to capture the diagnostic workflow: radiographs are typically treated as context-agnostic images, while radiologists' gaze -- a crucial cue for visual reasoning -- remains largely underexplored by existing methods. These limitations hinder the modeling of disease-specific patterns and weaken cross-modal alignment. To bridge this gap, we introduce CoGaze, a Context- and Gaze-guided vision-language pretraining framework for chest X-rays. We first propose a context-infused vision encoder that models how radiologists integrate clinical context -- including patient history, symptoms, and diagnostic intent -- to guide diagnostic reasoning. We then present a multi-level supervision paradigm that (1) enforces intra- and inter-modal semantic alignment through hybrid-positive contrastive learning, (2) injects diagnostic priors via disease-aware cross-modal representation learning, and (3) leverages radiologists' gaze as probabilistic priors to guide attention toward diagnostically salient regions. Extensive experiments demonstrate that CoGaze consistently outperforms state-of-the-art methods across diverse tasks, achieving up to +2.0% CheXbertF1 and +1.2% BLEU2 for free-text and structured report generation, +23.2% AUROC for zero-shot classification, and +12.2% Precision@1 for image-text retrieval. Code is available at https://github.com/mk-runner/CoGaze.
- Abstract(参考訳): 医学的な視覚言語による事前訓練の進歩にもかかわらず、既存のモデルは診断のワークフローを捉えるのに苦慮している: ラジオグラフは通常、文脈に依存しない画像として扱われる。
これらの制限は、疾患固有のパターンのモデリングを妨げ、モダル間のアライメントを弱める。
このギャップを埋めるために、胸部X線のためのコンテキストおよびガゼ誘導視覚言語事前学習フレームワークであるCoGazeを紹介する。
まず、患者の歴史、症状、診断意図を含む臨床コンテキストをどのように統合するかをモデル化し、診断的推論を導くコンテキスト注入型視覚エンコーダを提案する。
そこで我々は,(1)ハイブリッド・陽性・コントラスト学習によるモダクティブ・セマンティック・アライメントの実施,(2)疾患を意識したクロスモーダルな表現学習による診断先行の注入,(3)放射線技師の視線を確率的先行として活用し,診断上健全な領域への注意を誘導する多段階の監視パラダイムを提案する。
広範な実験により、CoGazeは様々なタスクにわたって最先端の手法を一貫して上回り、自由テキストおよび構造化レポート生成には+2.0% CheXbertF1と+1.2% BLEU2、ゼロショット分類には+23.2% AUROC、画像テキスト検索には+12.2% Precision@1を達成している。
コードはhttps://github.com/mk-runner/CoGaze.comで入手できる。
関連論文リスト
- Visual Alignment of Medical Vision-Language Models for Grounded Radiology Report Generation [25.148217482604746]
VALOR:放射線診断用医用ビジョンランゲージモデルの視覚的アライメントを提案する。
GRPO(Group-Relative Proximal Optimization)を利用した強化学習に基づくポストアライメントフレームワークを提案する。
複数のベンチマークの実験では、VALORは事実の精度と視覚的グラウンド化を大幅に改善し、最先端のレポート生成手法よりも大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-12-18T05:48:21Z) - A Disease-Aware Dual-Stage Framework for Chest X-ray Report Generation [15.331803613974365]
胸部X線レポート生成のための新しい2段階疾患認識フレームワークを提案する。
ステージ1では,特定の病理カテゴリに対応する病的意味トークン(DAST)を学習する。
ステージ2では,病を意識した表現と視覚的特徴を統合するために,病的・視覚的注意融合モジュールを導入する。
論文 参考訳(メタデータ) (2025-11-15T15:31:51Z) - X-Ray-CoT: Interpretable Chest X-ray Diagnosis with Vision-Language Models via Chain-of-Thought Reasoning [0.0]
胸部X線診断のための新しいフレームワークであるX線CoT(Chest X-ray Chain-of-Thought)を提案する。
X線-CoTは、まずマルチモーダル特徴と視覚概念を抽出することにより、ヒトの放射線学者の「チェーン・オブ・思想」をシミュレートする。
80.52%、F1スコア78.65%のバランスド精度で、競争力のある定量的パフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-08-17T18:00:41Z) - PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation [12.860257420677122]
PriorRGは胸部X線レポート生成フレームワークで、2段階のトレーニングパイプラインを通じて実際の臨床をエミュレートする。
ステージ1では,臨床文脈の時間的特徴抽出を利用した事前指導型コントラスト事前訓練方式を導入する。
ステージ2では、視覚エンコーダの隠蔽状態との事前知識を高めるために、事前認識された粗時間デコーディングを統合する。
論文 参考訳(メタデータ) (2025-08-07T13:02:20Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [48.45209969191245]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Generation of Radiology Findings in Chest X-Ray by Leveraging
Collaborative Knowledge [6.792487817626456]
医学的イメージを解釈する認知的タスクは、放射線学のワークフローにおいて最も重要であり、しばしば時間を要するステップである。
この研究は、ほとんどの時間をFindingsの執筆またはナレーションに費やしている放射線学者の作業量を削減することに焦点を当てている。
単段階画像キャプションタスクとして放射線学レポートを生成する過去の研究とは異なり、CXR画像の解釈の複雑さを考慮に入れている。
論文 参考訳(メタデータ) (2023-06-18T00:51:28Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。