論文の概要: Boosting Vision Semantic Density with Anatomy Normality Modeling for Medical Vision-language Pre-training
- arxiv url: http://arxiv.org/abs/2508.03742v1
- Date: Fri, 01 Aug 2025 06:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.355895
- Title: Boosting Vision Semantic Density with Anatomy Normality Modeling for Medical Vision-language Pre-training
- Title(参考訳): 医用ビジョン言語プレトレーニングのための解剖学的正規性モデルを用いたブースティング・ビジョン・セマンティック・密度
- Authors: Weiwei Cao, Jianpeng Zhang, Zhongyi Shui, Sinuo Wang, Zeli Chen, Xi Li, Le Lu, Xianghua Ye, Tingbo Liang, Qi Zhang, Ling Zhang,
- Abstract要約: 我々は、アライメントの有効性を向上させるために、視覚意味密度を高めることを提案する。
一方,我々は疾患レベルの視覚的コントラスト学習を通じて視覚意味論を強化する。
一方,各解剖学的サンプルの分布をモデル化するための解剖学的正規性モデリング手法を提案する。
- 参考スコア(独自算出の注目度): 18.416499501764207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) has great potential for developing multifunctional and general medical diagnostic capabilities. However, aligning medical images with a low signal-to-noise ratio (SNR) to reports with a high SNR presents a semantic density gap, leading to visual alignment bias. In this paper, we propose boosting vision semantic density to improve alignment effectiveness. On one hand, we enhance visual semantics through disease-level vision contrastive learning, which strengthens the model's ability to differentiate between normal and abnormal samples for each anatomical structure. On the other hand, we introduce an anatomical normality modeling method to model the distribution of normal samples for each anatomy, leveraging VQ-VAE for reconstructing normal vision embeddings in the latent space. This process amplifies abnormal signals by leveraging distribution shifts in abnormal samples, enhancing the model's perception and discrimination of abnormal attributes. The enhanced visual representation effectively captures the diagnostic-relevant semantics, facilitating more efficient and accurate alignment with the diagnostic report. We conduct extensive experiments on two chest CT datasets, CT-RATE and Rad-ChestCT, and an abdominal CT dataset, MedVL-CT69K, and comprehensively evaluate the diagnosis performance across multiple tasks in the chest and abdominal CT scenarios, achieving state-of-the-art zero-shot performance. Notably, our method achieved an average AUC of 84.9% across 54 diseases in 15 organs, significantly surpassing existing methods. Additionally, we demonstrate the superior transfer learning capabilities of our pre-trained model. Code is available at https://github.com/alibaba-damo-academy/ViSD-Boost.
- Abstract(参考訳): 視覚言語事前訓練(VLP)は多機能および一般的な医療診断機能を開発する大きな可能性を持っている。
しかし、医用画像と低信号対雑音比(SNR)を高SNRの報告に合わせると、意味密度の差が生じ、視覚的アライメントバイアスが生じる。
本稿では,アライメント効率を向上させるために,視覚意味密度の向上を提案する。
一方,疾患レベルの視覚的コントラスト学習により視覚的セマンティクスが向上し,各解剖学的構造に対して正常標本と異常標本を区別する能力が強化される。
一方,各解剖学的試料の分布をモデル化するための解剖学的正規性モデリング手法を導入し,VQ-VAEを用いて潜伏空間における正常な視覚埋め込みを再構築する。
このプロセスは異常サンプルの分布シフトを利用して異常信号を増幅し、モデルの知覚を高め、異常属性の識別を行う。
視覚的表現の強化は、診断関連セマンティクスを効果的に捉え、診断報告とより効率的かつ正確なアライメントを促進する。
我々は,CT-RATEとRad-ChestCTの2つの胸部CTデータセットと腹部CTデータセットMedVL-CT69Kについて広範な実験を行い,胸部,腹部CTの複数のタスクにおける診断性能を総合的に評価し,最先端のゼロショット性能を実現する。
特に,15の臓器において54の疾患に対して平均84.9%のAUCを達成し,既存の手法をはるかに上回った。
さらに,事前学習モデルの優れた伝達学習能力を示す。
コードはhttps://github.com/alibaba-damo-academy/ViSD-Boost.comで入手できる。
関連論文リスト
- Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。
しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。
今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文 参考訳(メタデータ) (2025-01-24T14:50:48Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Multiscale Latent Diffusion Model for Enhanced Feature Extraction from Medical Images [5.395912799904941]
CTスキャナーモデルと取得プロトコルのバリエーションは、抽出した放射能特性に有意な変動をもたらす。
LTDiff++は医療画像の特徴抽出を強化するために設計されたマルチスケール潜在拡散モデルである。
論文 参考訳(メタデータ) (2024-10-05T02:13:57Z) - CC-DCNet: Dynamic Convolutional Neural Network with Contrastive Constraints for Identifying Lung Cancer Subtypes on Multi-modality Images [13.655407979403945]
肺がんサブタイプを多次元・多モード画像で正確に分類するための新しい深層学習ネットワークを提案する。
提案モデルの強みは, 対のCT-病理画像セットと独立のCT画像セットの両方を動的に処理できることにある。
また,ネットワーク学習を通じてモダリティ関係を定量的にマッピングするコントラスト制約モジュールも開発した。
論文 参考訳(メタデータ) (2024-07-18T01:42:00Z) - Similarity-aware Syncretic Latent Diffusion Model for Medical Image Translation with Representation Learning [15.234393268111845]
非造影CT(non-contrast CT)は画像のコントラストと解剖学的視認性を低下させ、診断の不確実性を増大させる可能性がある。
医用画像翻訳のための潜時拡散モデルに基づく新しいシンプレティック生成モデル(S$2$LDM)を提案する。
S$2$LDMは、シンプレティックエンコーディングと拡散を通じて、異なるモーダル画像の類似性を高め、潜伏空間における重複情報を促進し、対照的に強調された領域でより詳細な医療画像を生成する。
論文 参考訳(メタデータ) (2024-06-20T03:54:41Z) - Unsupervised contrastive analysis for anomaly detection in brain MRIs via conditional diffusion models [13.970483987621135]
本研究では、健康な画像に対して自己教師付きコントラストエンコーダを訓練することにより、再建品質を改善するための教師なしフレームワークを提案する。
これらの特徴は、拡散モデルを用いて、与えられた画像の健全な外観を再構成し、画素ワイド比較による解釈可能な異常な局所化を可能にする。
論文 参考訳(メタデータ) (2024-06-02T15:19:07Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - A Multi-Stage Attentive Transfer Learning Framework for Improving
COVID-19 Diagnosis [49.3704402041314]
新型コロナの診断を改善するための多段階集中移動学習フレームワークを提案する。
提案するフレームワークは、複数のソースタスクと異なるドメインのデータから知識を学習し、正確な診断モデルを訓練する3つの段階からなる。
本稿では,肺CT画像のマルチスケール表現を学習するための自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-14T01:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。