論文の概要: CoCa-CXR: Contrastive Captioners Learn Strong Temporal Structures for Chest X-Ray Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2502.20509v1
- Date: Thu, 27 Feb 2025 20:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:09.712017
- Title: CoCa-CXR: Contrastive Captioners Learn Strong Temporal Structures for Chest X-Ray Vision-Language Understanding
- Title(参考訳): CoCa-CXR:胸部X線視線言語理解のための強い時間構造を学習するコントラストキャピタ
- Authors: Yixiong Chen, Shawn Xu, Andrew Sellergren, Yossi Matias, Avinatan Hassidim, Shravya Shetty, Daniel Golden, Alan Yuille, Lin Yang,
- Abstract要約: ヴィジュアル言語モデルは、画像とレポートの両方からリッチなセマンティクスを学ぶため、医療画像分析にとって大きなメリットがあることが証明されている。
画像ペアのセマンティクスの違いと整列進行記述に対処する2つのコンポーネントを提案する。
CoCa-CXRは、ペアのCXR画像間の局所的な差異を特定するために、新しい領域横断モジュールを組み込んでいる。
- 参考スコア(独自算出の注目度): 19.89997101064605
- License:
- Abstract: Vision-language models have proven to be of great benefit for medical image analysis since they learn rich semantics from both images and reports. Prior efforts have focused on better alignment of image and text representations to enhance image understanding. However, though explicit reference to a prior image is common in Chest X-Ray (CXR) reports, aligning progression descriptions with the semantics differences in image pairs remains under-explored. In this work, we propose two components to address this issue. (1) A CXR report processing pipeline to extract temporal structure. It processes reports with a large language model (LLM) to separate the description and comparison contexts, and extracts fine-grained annotations from reports. (2) A contrastive captioner model for CXR, namely CoCa-CXR, to learn how to both describe images and their temporal progressions. CoCa-CXR incorporates a novel regional cross-attention module to identify local differences between paired CXR images. Extensive experiments show the superiority of CoCa-CXR on both progression analysis and report generation compared to previous methods. Notably, on MS-CXR-T progression classification, CoCa-CXR obtains 65.0% average testing accuracy on five pulmonary conditions, outperforming the previous state-of-the-art (SOTA) model BioViL-T by 4.8%. It also achieves a RadGraph F1 of 24.2% on MIMIC-CXR, which is comparable to the Med-Gemini foundation model.
- Abstract(参考訳): ヴィジュアル言語モデルは、画像とレポートの両方からリッチなセマンティクスを学ぶため、医療画像分析にとって大きなメリットがあることが証明されている。
これまでは、画像理解を強化するために、画像とテキスト表現のアライメントの改善に重点を置いてきた。
しかし、Chest X-Ray (CXR) の報告では、先行画像への明示的な参照は一般的であるが、画像ペアのセマンティクスの違いと進行記述の整合性は未解明のままである。
本稿では,この問題に対処する2つのコンポーネントを提案する。
1)時間構造を抽出するCXRレポート処理パイプライン。
レポートを大きな言語モデル(LLM)で処理し、記述と比較コンテキストを分離し、レポートからきめ細かいアノテーションを抽出する。
2)CXRのコントラストキャプタモデル、すなわちCoCa-CXRは、画像と時間的進行の両方を記述する方法を学ぶ。
CoCa-CXRは、ペアのCXR画像間の局所的な差異を特定するために、新しい領域横断モジュールを組み込んでいる。
拡張実験により,CoCa-CXRの進行解析およびレポート生成における優位性を示した。
特に、MS-CXR-Tの進行分類において、CoCa-CXRは5つの肺条件における平均テスト精度を65.0%取得し、以前のSOTAモデルであるBioViL-Tを4.8%上回った。
また、MIMIC-CXRで24.2%のRadGraph F1も達成している。
関連論文リスト
- Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation [54.631356899598956]
本稿では,専門医が医療報告を書く過程を効果的に模倣する,新しい連想型記憶強調X線レポート生成モデルを提案する。
我々は,病気関連トークンのメモリアソシエーションを確立するために,ビジュアルホップフィールドネットワークを使用し,レポートホップフィールドネットワークを用いてレポートメモリ情報を検索する。
論文 参考訳(メタデータ) (2025-01-07T01:19:48Z) - TiBiX: Leveraging Temporal Information for Bidirectional X-ray and Report Generation [0.7381551917607596]
TiBiX:双方向X線とレポート生成のための時間情報を活用する。
双方向X線とレポート生成のための時間情報を活用するTiBiXを提案する。
論文 参考訳(メタデータ) (2024-03-20T07:00:03Z) - WoLF: Wide-scope Large Language Model Framework for CXR Understanding [8.265578494822087]
胸部X線理解のための広スコープ大言語モデルフレームワークを提案する。
実際の臨床シナリオにおける正確な診断に利用される多面的患者の記録を収集する。
論文 参考訳(メタデータ) (2024-03-19T06:39:23Z) - Fine-Grained Image-Text Alignment in Medical Imaging Enables Explainable Cyclic Image-Report Generation [91.63262242041695]
本稿では,胸部X線画像領域と医療報告における単語を関連付けるために,適応パッチワードマッチング(AdaMatch)モデルを提案する。
AdaMatchは、適応パッチと単語のきめ細かい関係を利用して、対応する単語で特定の画像領域の説明を提供する。
CXRレポート生成タスクの明示的な説明性を提供するため,循環型CXRレポート生成のためのAdaMatchベースの双方向大言語モデルを提案する。
論文 参考訳(メタデータ) (2023-12-13T11:47:28Z) - Chest X-ray Image Classification: A Causal Perspective [49.87607548975686]
本稿では,CXR分類問題に対処する因果的アプローチを提案し,構造因果モデル(SCM)を構築し,CXR分類に有効な視覚情報を選択するためにバックドア調整を用いる。
実験の結果,提案手法はオープンソースNIH ChestX-ray14の分類性能に優れていた。
論文 参考訳(メタデータ) (2023-05-20T03:17:44Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - Auxiliary Signal-Guided Knowledge Encoder-Decoder for Medical Report
Generation [107.3538598876467]
放射線技師の動作パターンを模倣する補助信号誘導知識デコーダ(ASGK)を提案する。
ASGKは、内的特徴融合と外部医療言語情報を統合して、医療知識の伝達と学習をガイドする。
論文 参考訳(メタデータ) (2020-06-06T01:00:15Z) - Show, Describe and Conclude: On Exploiting the Structure Information of
Chest X-Ray Reports [5.6070625920019825]
胸部X線像(CXR)は臨床検診や診断に一般的に用いられる。
レポートのセクションと内部の複雑な構造は、自動レポート生成に大きな課題をもたらします。
本稿では,CXRイメージングレポートを生成するために,レポートセクション間の構造情報を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T02:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。