論文の概要: OmniMRI: A Unified Vision--Language Foundation Model for Generalist MRI Interpretation
- arxiv url: http://arxiv.org/abs/2508.17524v1
- Date: Sun, 24 Aug 2025 21:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.568616
- Title: OmniMRI: A Unified Vision--Language Foundation Model for Generalist MRI Interpretation
- Title(参考訳): OmniMRI:一般MRI解釈のための統一ビジョン-言語基礎モデル
- Authors: Xingxin He, Aurora Rofena, Ruimin Feng, Haozhe Liao, Zhaoye Zhou, Albert Jang, Fang Liu,
- Abstract要約: 我々は、MRIワークフロー全体にわたって一般化するために設計された統合視覚言語基盤モデルであるOmniMRIを紹介する。
OmniMRIは60のパブリックデータセットからキュレートされた大規模で異質なコーパスで訓練されている。
結果は,単一アーキテクチャ内で多様なタスクを実行できるOmniMRIの能力を示している。
- 参考スコア(独自算出の注目度): 5.3427577036717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Magnetic Resonance Imaging (MRI) is indispensable in clinical practice but remains constrained by fragmented, multi-stage workflows encompassing acquisition, reconstruction, segmentation, detection, diagnosis, and reporting. While deep learning has achieved progress in individual tasks, existing approaches are often anatomy- or application-specific and lack generalizability across diverse clinical settings. Moreover, current pipelines rarely integrate imaging data with complementary language information that radiologists rely on in routine practice. Here, we introduce OmniMRI, a unified vision-language foundation model designed to generalize across the entire MRI workflow. OmniMRI is trained on a large-scale, heterogeneous corpus curated from 60 public datasets, over 220,000 MRI volumes and 19 million MRI slices, incorporating image-only data, paired vision-text data, and instruction-response data. Its multi-stage training paradigm, comprising self-supervised vision pretraining, vision-language alignment, multimodal pretraining, and multi-task instruction tuning, progressively equips the model with transferable visual representations, cross-modal reasoning, and robust instruction-following capabilities. Qualitative results demonstrate OmniMRI's ability to perform diverse tasks within a single architecture, including MRI reconstruction, anatomical and pathological segmentation, abnormality detection, diagnostic suggestion, and radiology report generation. These findings highlight OmniMRI's potential to consolidate fragmented pipelines into a scalable, generalist framework, paving the way toward foundation models that unify imaging and clinical language for comprehensive, end-to-end MRI interpretation.
- Abstract(参考訳): 磁気共鳴イメージング(MRI)は臨床には不可欠であるが、取得、再構成、セグメンテーション、検出、診断、報告を含む断片化された多段階のワークフローによって制約されている。
ディープラーニングは個々のタスクにおいて進歩を遂げてきたが、既存のアプローチはしばしば解剖学またはアプリケーション固有のものであり、様々な臨床環境において一般化性に欠ける。
さらに、現在のパイプラインは、放射線技師が日常的に頼っている補完的な言語情報と画像データを統合することは滅多にない。
本稿では、MRIワークフロー全体にわたって一般化するために設計された統合視覚言語基盤モデルであるOmniMRIを紹介する。
OmniMRIは、60の公開データセット、20,000以上のMRIボリューム、1900万のMRIスライスからキュレートされた大規模で異質なコーパスでトレーニングされており、画像のみのデータ、ペア化された視覚テキストデータ、命令応答データなどが組み込まれている。
自己監督型視覚前訓練、視覚言語アライメント、マルチモーダル・プレトレーニング、マルチタスク・インストラクション・チューニングを含む多段階訓練パラダイムは、トランスファー可能な視覚表現、クロスモーダル推論、堅牢な命令追従機能を備えたモデルを段階的に装備する。
定性的な結果は、MRI再構成、解剖学的および病理的セグメント化、異常検出、診断提案、放射線学的レポート生成など、単一のアーキテクチャ内で多様なタスクを実行するOmniMRIの能力を示している。
これらの知見は、断片化されたパイプラインをスケーラブルで汎用的なフレームワークに統合するOmniMRIの可能性を浮き彫りにした。
関連論文リスト
- Large-scale Multi-sequence Pretraining for Generalizable MRI Analysis in Versatile Clinical Applications [15.846703688846086]
本研究では,大規模MultI-Sequence MRIを用いた基礎モデルであるPRISMを提案する。
本稿では,MRIの配列特異的な変化から解剖学的に不変な特徴を引き離す新しい事前訓練パラダイムを提案する。
PRISMは、非事前のモデルと既存の基礎モデルの両方を一貫して上回った。
論文 参考訳(メタデータ) (2025-08-10T03:31:46Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - ContextMRI: Enhancing Compressed Sensing MRI through Metadata Conditioning [51.26601171361753]
本稿では, 微細なメタデータを再構成プロセスに統合したMRI用テキスト条件拡散モデルであるContextMRIを提案する。
メタデータの忠実度はスライス位置やコントラストから患者年齢、性別、病理まで増加し、体系的に再構築性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-08T05:15:43Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Towards General Text-guided Image Synthesis for Customized Multimodal Brain MRI Generation [51.28453192441364]
マルチモーダル脳磁気共鳴(MR)イメージングは神経科学や神経学において不可欠である。
現在のMR画像合成アプローチは、通常、特定のタスクのための独立したデータセットで訓練される。
テキスト誘導ユニバーサルMR画像合成モデルであるTUMSynについて述べる。
論文 参考訳(メタデータ) (2024-09-25T11:14:47Z) - SegmentAnyBone: A Universal Model that Segments Any Bone at Any Location
on MRI [13.912230325828943]
本稿では,MRIにおける骨分割のための汎用的,一般公開的なディープラーニングモデルを提案する。
提案モデルでは,完全自動セグメンテーションとプロンプトベースセグメンテーションの2つのモードで動作可能である。
1) さまざまなMRIプロトコルにまたがる新しいMRIデータセットの収集,注釈付けを行い,300以上の注釈付きボリュームと8485個の注釈付きスライスを含む。
論文 参考訳(メタデータ) (2024-01-23T18:59:25Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Explainable unsupervised multi-modal image registration using deep
networks [2.197364252030876]
MRI画像登録は、異なるモダリティ、時間点、スライスから幾何学的に「ペア」診断することを目的としている。
本研究では,我々のDLモデルが完全に説明可能であることを示し,さらなる医用画像データへのアプローチを一般化するための枠組みを構築した。
論文 参考訳(メタデータ) (2023-08-03T19:13:48Z) - DIGEST: Deeply supervIsed knowledGE tranSfer neTwork learning for brain
tumor segmentation with incomplete multi-modal MRI scans [16.93394669748461]
多モードMRI(Multi-modal magnetic resonance imaging)に基づく脳腫瘍の分節化は、脳腫瘍の診断、治療、術後の評価を支援する重要な役割を担っている。
既存の自動セグメンテーション法によって達成されたインスピレーション性能にもかかわらず、マルチモーダルMRIデータは実際の臨床応用では利用できない。
そこで本研究では,異なる条件下で正確な脳腫瘍セグメント化を実現するDIGEST(Deeply SupervIsed KnowledGE tranSfer neTwork)を提案する。
論文 参考訳(メタデータ) (2022-11-15T09:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。