論文の概要: SimCroP: Radiograph Representation Learning with Similarity-driven Cross-granularity Pre-training
- arxiv url: http://arxiv.org/abs/2509.08311v1
- Date: Wed, 10 Sep 2025 06:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.324373
- Title: SimCroP: Radiograph Representation Learning with Similarity-driven Cross-granularity Pre-training
- Title(参考訳): SimCroP: 類似性駆動型クロスグラニュラリティ事前学習による画像表現学習
- Authors: Rongsheng Wang, Fenghe Tang, Qingsong Yao, Rui Yan, Xu Zhang, Zhen Huang, Haoran Lai, Zhiyang He, Xiaodong Tao, Zihang Jiang, Shaohua Kevin Zhou,
- Abstract要約: 胸部CTにおける類似性駆動型クロスグラニュラリティ事前学習フレームワークを提案する。
類似性駆動アライメントとクロスグラニュラリティ融合を組み合わせて、ラジオグラフィーの解釈を改善する。
SimCroPは、大規模なペアCTレポートデータセットで事前トレーニングされ、画像分類とセグメンテーションタスクで検証される。
- 参考スコア(独自算出の注目度): 25.763109982379703
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Medical vision-language pre-training shows great potential in learning representative features from massive paired radiographs and reports. However, in computed tomography (CT) scans, the distribution of lesions which contain intricate structures is characterized by spatial sparsity. Besides, the complex and implicit relationships between different pathological descriptions in each sentence of the report and their corresponding sub-regions in radiographs pose additional challenges. In this paper, we propose a Similarity-Driven Cross-Granularity Pre-training (SimCroP) framework on chest CTs, which combines similarity-driven alignment and cross-granularity fusion to improve radiograph interpretation. We first leverage multi-modal masked modeling to optimize the encoder for understanding precise low-level semantics from radiographs. Then, similarity-driven alignment is designed to pre-train the encoder to adaptively select and align the correct patches corresponding to each sentence in reports. The cross-granularity fusion module integrates multimodal information across instance level and word-patch level, which helps the model better capture key pathology structures in sparse radiographs, resulting in improved performance for multi-scale downstream tasks. SimCroP is pre-trained on a large-scale paired CT-reports dataset and validated on image classification and segmentation tasks across five public datasets. Experimental results demonstrate that SimCroP outperforms both cutting-edge medical self-supervised learning methods and medical vision-language pre-training methods. Codes and models are available at https://github.com/ToniChopp/SimCroP.
- Abstract(参考訳): 医用視覚言語による事前訓練は, 大量の無線画像とレポートから, 代表的な特徴を学習する上で大きな可能性を示す。
しかしCT(Computerd tomography)スキャンでは,複雑な構造を含む病変の分布は空間的空間性によって特徴づけられる。
さらに、レポートの各文における異なる病理学的記述と、それに対応するラジオグラフィーのサブリージョンとの間の複雑で暗黙的な関係は、さらなる課題を提起する。
本稿では,胸部CTにおける類似性駆動型クロスグラニュラリティ事前訓練(SimCroP)フレームワークを提案する。
まず,マルチモーダルマスクモデルを用いてエンコーダを最適化し,高精度な低レベルセマンティクスをラジオグラフから理解する。
次に、類似性駆動アライメントは、エンコーダを事前訓練して、レポート中の各文に対応する正しいパッチを適応的に選択、調整するように設計される。
クロスグラニュラリティ融合モジュールは、インスタンスレベルとワードパッチレベルにまたがるマルチモーダル情報を統合し、スパースラジオグラフィーにおける重要な病理構造をよりよく把握し、マルチスケールダウンストリームタスクのパフォーマンスを向上させる。
SimCroPは、大規模なペア化されたCT-Reportsデータセットで事前トレーニングされ、5つのパブリックデータセットにわたるイメージ分類とセグメンテーションタスクで検証される。
実験の結果,SimCroPは最先端の自己指導型学習法と医用ビジョン言語事前学習法の両方に優れていた。
コードとモデルはhttps://github.com/ToniChopp/SimCroP.comで公開されている。
関連論文リスト
- Meta-Entity Driven Triplet Mining for Aligning Medical Vision-Language Models [9.76070837929117]
既存のアライメント手法は、微粒な病理属性の分離よりも病気のクラス間の分離を優先する。
本稿では,マルチモーダル三重項学習による画像テキストアライメントを向上させる新しい手法であるMedTrimを提案する。
我々の実証では,MedTrimは,最先端のアライメント手法と比較して,下流検索および分類タスクの性能を向上させることが示されている。
論文 参考訳(メタデータ) (2025-04-22T14:17:51Z) - PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - IMPACT: A Generic Semantic Loss for Multimodal Medical Image Registration [0.46904601975060667]
IMPACT (Image Metric with Pretrained Model-Agnostic Comparison for Transmodality registration) は、マルチモーダル画像登録のための新しい類似度尺度である。
大規模事前訓練セグメンテーションモデルから抽出した深い特徴の比較に基づいて意味的類似度尺度を定義する。
胸椎CT/CBCTおよび骨盤MR/CTデータセットを含む5つの難易度3次元登録課題について検討した。
論文 参考訳(メタデータ) (2025-03-31T14:08:21Z) - SeLIP: Similarity Enhanced Contrastive Language Image Pretraining for Multi-modal Head MRI [6.714491893348051]
画像とそれに対応する放射線学的所見の対比学習を用いて, マルチモデル頭部MRIの基礎モデルを構築することを提案する。
提案した類似性強化コントラスト言語画像事前学習(SeLIP)は,より有用な特徴を効果的に抽出することができる。
論文 参考訳(メタデータ) (2025-03-25T16:09:45Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - A Multi-Stage Attentive Transfer Learning Framework for Improving
COVID-19 Diagnosis [49.3704402041314]
新型コロナの診断を改善するための多段階集中移動学習フレームワークを提案する。
提案するフレームワークは、複数のソースタスクと異なるドメインのデータから知識を学習し、正確な診断モデルを訓練する3つの段階からなる。
本稿では,肺CT画像のマルチスケール表現を学習するための自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-14T01:39:19Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。