論文の概要: Decipher-MR: A Vision-Language Foundation Model for 3D MRI Representations
- arxiv url: http://arxiv.org/abs/2509.21249v1
- Date: Thu, 25 Sep 2025 14:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.991047
- Title: Decipher-MR: A Vision-Language Foundation Model for 3D MRI Representations
- Title(参考訳): Decipher-MR:3次元MRI表現のための視覚言語基礎モデル
- Authors: Zhijian Yang, Noel DSouza, Istvan Megyeri, Xiaojian Xu, Amin Honarmandi Shandiz, Farzin Haddadpour, Krisztian Koos, Laszlo Rusko, Emanuele Valeriano, Bharadwaj Swaninathan, Lei Wu, Parminder Bhatia, Taha Kass-Hout, Erhan Bas,
- Abstract要約: Decipher-MRは、大規模なデータセットに基づいて訓練された3次元MRI固有の視覚言語基盤モデルである。
Decipher-MRは、自己指導型視覚学習とレポート誘導型テキスト監視を統合し、堅牢で一般化可能な表現を構築する。
以上の結果から,Decipher-MRはMRIベースのAIのスケーラブルで汎用的な基盤として確立され,臨床および研究領域における効率的な開発が促進される。
- 参考スコア(独自算出の注目度): 12.805804608410739
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Magnetic Resonance Imaging (MRI) is a critical medical imaging modality in clinical diagnosis and research, yet its complexity and heterogeneity pose challenges for automated analysis, particularly in scalable and generalizable machine learning applications. While foundation models have revolutionized natural language and vision tasks, their application to MRI remains limited due to data scarcity and narrow anatomical focus. In this work, we present Decipher-MR, a 3D MRI-specific vision-language foundation model trained on a large-scale dataset comprising 200,000 MRI series from over 22,000 studies spanning diverse anatomical regions, sequences, and pathologies. Decipher-MR integrates self-supervised vision learning with report-guided text supervision to build robust, generalizable representations, enabling effective adaptation across broad applications. To enable robust and diverse clinical tasks with minimal computational overhead, Decipher-MR supports a modular design that enables tuning of lightweight, task-specific decoders attached to a frozen pretrained encoder. Following this setting, we evaluate Decipher-MR across diverse benchmarks including disease classification, demographic prediction, anatomical localization, and cross-modal retrieval, demonstrating consistent performance gains over existing foundation models and task-specific approaches. Our results establish Decipher-MR as a scalable and versatile foundation for MRI-based AI, facilitating efficient development across clinical and research domains.
- Abstract(参考訳): 磁気共鳴イメージング(MRI)は、臨床診断と研究において重要な医療画像モダリティであるが、その複雑さと不均一性は、特にスケーラブルで一般化可能な機械学習アプリケーションにおいて、自動解析に課題をもたらす。
基礎モデルは自然言語や視覚タスクに革命をもたらしたが、データ不足と解剖学的焦点の狭さにより、MRIへの応用は制限されている。
本研究では, 解剖学的領域, シーケンス, 病理組織にまたがる22,000以上の研究から得られた20,000個のMRIシリーズからなる大規模データセットに基づいて, 3次元MRI固有の視覚言語基盤モデルであるDecipher-MRを提案する。
Decipher-MRは、自己指導型視覚学習とレポート誘導型テキスト監視を統合して、堅牢で一般化可能な表現を構築し、広範囲のアプリケーションに効果的に適応できるようにする。
計算オーバーヘッドを最小限に抑えて、堅牢で多様な臨床タスクを可能にするために、Decipher-MRは、凍結した事前訓練されたエンコーダに取り付けられた軽量なタスク固有のデコーダのチューニングを可能にするモジュール設計をサポートする。
本設定では, 疾患分類, 人口統計予測, 解剖学的局所化, クロスモーダル検索など, 様々なベンチマークでDecipher-MRを評価し, 既存の基礎モデルやタスク固有のアプローチよりも一貫した性能向上を示す。
以上の結果から,Decipher-MRはMRIベースのAIのスケーラブルで汎用的な基盤として確立され,臨床および研究領域における効率的な開発が促進される。
関連論文リスト
- M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision [24.846428105192405]
我々は、モダリティ固有のカスタマイズなしで、統一されたビジュアルエンコーダであるM3Retを訓練する。
生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。
提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
論文 参考訳(メタデータ) (2025-09-01T10:59:39Z) - OmniMRI: A Unified Vision--Language Foundation Model for Generalist MRI Interpretation [5.3427577036717]
我々は、MRIワークフロー全体にわたって一般化するために設計された統合視覚言語基盤モデルであるOmniMRIを紹介する。
OmniMRIは60のパブリックデータセットからキュレートされた大規模で異質なコーパスで訓練されている。
結果は,単一アーキテクチャ内で多様なタスクを実行できるOmniMRIの能力を示している。
論文 参考訳(メタデータ) (2025-08-24T21:11:28Z) - Large-scale Multi-sequence Pretraining for Generalizable MRI Analysis in Versatile Clinical Applications [15.846703688846086]
本研究では,大規模MultI-Sequence MRIを用いた基礎モデルであるPRISMを提案する。
本稿では,MRIの配列特異的な変化から解剖学的に不変な特徴を引き離す新しい事前訓練パラダイムを提案する。
PRISMは、非事前のモデルと既存の基礎モデルの両方を一貫して上回った。
論文 参考訳(メタデータ) (2025-08-10T03:31:46Z) - Towards a general-purpose foundation model for fMRI analysis [58.06455456423138]
我々は,4次元fMRIボリュームから学習し,多様なアプリケーション間で効率的な知識伝達を可能にするフレームワークであるNeuroSTORMを紹介する。
NeuroSTORMは、複数のセンターにまたがる5万人以上の被験者から5歳から100歳までの28.65万fMRIフレーム(→9000時間)で事前トレーニングされている。
年齢/性別予測、表現型予測、疾患診断、fMRI-to-image検索、タスクベースのfMRIの5つのタスクにおいて、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-06-11T23:51:01Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - K-Space-Aware Cross-Modality Score for Synthesized Neuroimage Quality
Assessment [71.27193056354741]
クロスモダリティな医用画像合成をどう評価するかという問題は、ほとんど解明されていない。
本稿では,この課題の進展を促すため,新しい指標K-CROSSを提案する。
K-CROSSは、トレーニング済みのマルチモードセグメンテーションネットワークを使用して、病変の位置を予測する。
論文 参考訳(メタデータ) (2023-07-10T01:26:48Z) - Multimodal Representation Learning of Cardiovascular Magnetic Resonance
Imaging [11.887706872979697]
我々は、CMR画像と関連する心臓医の報告のシーケンスを共同で学習するマルチモーダル学習フレームワークである textbfCMRformer を提案する。
我々の研究はCMR研究の進歩を早める可能性があり、より正確で効果的な診断と治療につながる可能性がある。
論文 参考訳(メタデータ) (2023-04-16T02:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。