論文の概要: MedDChest: A Content-Aware Multimodal Foundational Vision Model for Thoracic Imaging
- arxiv url: http://arxiv.org/abs/2511.04016v1
- Date: Thu, 06 Nov 2025 03:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.287152
- Title: MedDChest: A Content-Aware Multimodal Foundational Vision Model for Thoracic Imaging
- Title(参考訳): MedDChest:胸部イメージングのためのコンテンツ対応マルチモーダル基礎視覚モデル
- Authors: Mahmoud Soliman, Islam Osman, Mohamed S. Shehata, Rasika Rajapakshe,
- Abstract要約: 我々は胸部画像に特化して最適化された新しい基礎的視覚変換器(ViT)モデルであるMedDChestを提案する。
われわれはMedDChestを、120万枚以上の画像からなる大規模でキュレートされたマルチモーダルデータセットでゼロからトレーニングした。
我々は、下流の様々な診断タスクを微調整することで、モデルの有効性を検証する。
- 参考スコア(独自算出の注目度): 3.0332210076508326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of vision models in medical imaging is often hindered by the prevailing paradigm of fine-tuning backbones pre-trained on out-of-domain natural images. To address this fundamental domain gap, we propose MedDChest, a new foundational Vision Transformer (ViT) model optimized specifically for thoracic imaging. We pre-trained MedDChest from scratch on a massive, curated, multimodal dataset of over 1.2 million images, encompassing different modalities including Chest X-ray and Computed Tomography (CT) compiled from 10 public sources. A core technical contribution of our work is Guided Random Resized Crops, a novel content-aware data augmentation strategy that biases sampling towards anatomically relevant regions, overcoming the inefficiency of standard cropping techniques on medical scans. We validate our model's effectiveness by fine-tuning it on a diverse set of downstream diagnostic tasks. Comprehensive experiments empirically demonstrate that MedDChest significantly outperforms strong, publicly available ImageNet-pretrained models. By establishing the superiority of large-scale, in-domain pre-training combined with domain-specific data augmentation, MedDChest provides a powerful and robust feature extractor that serves as a significantly better starting point for a wide array of thoracic diagnostic tasks. The model weights will be made publicly available to foster future research and applications.
- Abstract(参考訳): 医用画像における視覚モデルの性能は、ドメイン外の自然画像に事前訓練された微調整バックボーンのパラダイムによって妨げられることが多い。
この基本的な領域ギャップを解決するために,胸部画像に特化して最適化された新しい基礎的視覚変換器(ViT)モデルであるMedDChestを提案する。
我々は、Chest X-rayやCT(Computed Tomography)など10の公開ソースからコンパイルされたさまざまなモダリティを含む、120万以上の画像からなる、大規模でキュレートされたマルチモーダルデータセットで、MedDChestをスクラッチからトレーニングした。
この手法は、サンプルを解剖学的に関連のある領域に偏り、医療スキャンにおける標準的な収穫技術の不効率を克服する、新しいコンテンツ対応データ拡張戦略である。
我々は、下流の様々な診断タスクを微調整することで、モデルの有効性を検証する。
包括的実験により、MedDChestは、強力な、公開可能な ImageNet-pretrained モデルよりも大幅に優れていることが実証された。
MedDChestは、ドメイン固有のデータ拡張と組み合わせた大規模なドメイン内事前トレーニングの優位性を確立することで、幅広い胸部診断タスクの出発点となる、強力で堅牢な特徴抽出器を提供する。
モデルウェイトは、将来の研究と応用を促進するために公開されます。
関連論文リスト
- MM-DINOv2: Adapting Foundation Models for Multi-Modal Medical Image Analysis [19.063517827476826]
MM-DINOv2(MM-DINOv2)は,マルチモーダル・メディカル・イメージングのための事前学習型視覚基盤モデルDINOv2に適応する新しいフレームワークである。
本手法では,マルチモーダル・パッチの埋め込みを取り入れ,視覚基盤モデルによりマルチモーダル・イメージングデータを効果的に処理することができる。
本手法は外部テストセットで0.6のマシューズ相関係数(MCC)を達成し、最先端の教師付きアプローチを+11.1%超える。
論文 参考訳(メタデータ) (2025-09-08T12:34:15Z) - Does DINOv3 Set a New Medical Vision Standard? [67.33543059306938]
本報告は、DINOv3が、ドメイン固有の事前トレーニングなしで、医用視覚タスクのための強力な統合エンコーダとして機能するかどうかを考察する。
我々はDINOv3を2D/3D分類やセグメンテーションを含む一般的な医療ビジョンタスクでベンチマークした。
注目すべきは、いくつかのタスクでBiomedCLIPやCT-Netといった医療固有の基礎モデルよりも優れていることだ。
論文 参考訳(メタデータ) (2025-09-08T09:28:57Z) - CC-DCNet: Dynamic Convolutional Neural Network with Contrastive Constraints for Identifying Lung Cancer Subtypes on Multi-modality Images [13.655407979403945]
肺がんサブタイプを多次元・多モード画像で正確に分類するための新しい深層学習ネットワークを提案する。
提案モデルの強みは, 対のCT-病理画像セットと独立のCT画像セットの両方を動的に処理できることにある。
また,ネットワーク学習を通じてモダリティ関係を定量的にマッピングするコントラスト制約モジュールも開発した。
論文 参考訳(メタデータ) (2024-07-18T01:42:00Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - DiCoM -- Diverse Concept Modeling towards Enhancing Generalizability in Chest X-Ray Studies [6.83819481805979]
胸部X線(胸部X線、CXR)は、広く用いられている画像モダリティである。
自己指導型プレトレーニングは、多くの下流視覚タスクにおいて教師付きプレトレーニングよりも優れていることが証明されている。
本稿では,新しい自己教師型トレーニングパラダイムであるDiCoMについて紹介する。
論文 参考訳(メタデータ) (2024-02-22T20:51:37Z) - From CNN to Transformer: A Review of Medical Image Segmentation Models [7.3150850275578145]
医用画像セグメンテーションのための深層学習が主流となっている。
本稿では,近年最も代表的な4つの医用画像セグメンテーションモデルについて調査する。
理論的にこれらのモデルの特徴を解析し、2つのベンチマークデータセット上でそれらの性能を定量的に評価する。
論文 参考訳(メタデータ) (2023-08-10T02:48:57Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。