論文の概要: Modality-Aware and Anatomical Vector-Quantized Autoencoding for Multimodal Brain MRI
- arxiv url: http://arxiv.org/abs/2604.05171v1
- Date: Mon, 06 Apr 2026 21:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.491803
- Title: Modality-Aware and Anatomical Vector-Quantized Autoencoding for Multimodal Brain MRI
- Title(参考訳): マルチモーダル脳MRIのためのモダリティ認識と解剖学的ベクトル量子自動符号化
- Authors: Mingjie Li, Edward Kim, Yue Zhao, Ehsan Adeli, Kilian M. Pohl,
- Abstract要約: マルチモーダル脳MRIの再構成のためのVQ-VAE(Modality-Aware 3D vector-quantized VAE)を提案する。
NeuroQuantは、既存のVAEよりも優れた再構成忠実性を達成する。
- 参考スコア(独自算出の注目度): 15.657081811594418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a robust Variational Autoencoder (VAE) is a fundamental step for many deep learning applications in medical image analysis, such as MRI synthesizes. Existing brain VAEs predominantly focus on single-modality data (i.e., T1-weighted MRI), overlooking the complementary diagnostic value of other modalities like T2-weighted MRIs. Here, we propose a modality-aware and anatomically grounded 3D vector-quantized VAE (VQ-VAE) for reconstructing multi-modal brain MRIs. Called NeuroQuant, it first learns a shared latent representation across modalities using factorized multi-axis attention, which can capture relationships between distant brain regions. It then employs a dual-stream 3D encoder that explicitly separates the encoding of modality-invariant anatomical structures from modality-dependent appearance. Next, the anatomical encoding is discretized using a shared codebook and combined with modality-specific appearance features via Feature-wise Linear Modulation (FiLM) during the decoding phase. This entire approach is trained using a joint 2D/3D strategy in order to account for the slice-based acquisition of 3D MRI data. Extensive experiments on two multi-modal brain MRI datasets demonstrate that NeuroQuant achieves superior reconstruction fidelity compared to existing VAEs, enabling a scalable foundation for downstream generative modeling and cross-modal brain image analysis.
- Abstract(参考訳): 堅牢な変分オートエンコーダ(VAE)の学習は、MRI合成などの医療画像解析における多くのディープラーニングアプリケーションにとって、基本的なステップである。
既存のVAEは、T2強調MRIのような他のモードの相補的な診断値を見越して、単一のモダリティデータ(T1強調MRI)に重点を置いている。
本稿では,マルチモーダル脳MRIの再構成のための3次元ベクトル量子化VAE(VQ-VAE)を提案する。
NeuroQuant(ニューロクワント)と呼ばれるこのシステムは、まず、因子化された多軸の注意を使って、モーダルティをまたいだ共用潜伏表現を学習し、遠くの脳の領域間の関係を捉える。
次にデュアルストリーム3Dエンコーダを使用し、モダリティに依存した外観からモダリティ不変の解剖学的構造のエンコードを明確に分離する。
次に、共有コードブックを用いて解剖学的符号化を行い、復号フェーズ中にFiLM(Feature-wise Linear Modulation)を介してモダリティ固有の外観特徴と組み合わせる。
このアプローチ全体は、スライスに基づく3D MRIデータの取得を考慮し、ジョイント2D/3D戦略を用いて訓練される。
2つのマルチモーダル脳MRIデータセットに対する大規模な実験により、NeuroQuantは既存のVAEよりも優れた再構成忠実性を実現し、下流生成モデルとクロスモーダル脳画像解析のためのスケーラブルな基盤を可能にする。
関連論文リスト
- Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - Towards Generalisable Foundation Models for 3D Brain MRI [5.527537739064968]
我々は、DINO-v2を拡張することで構築された脳MRIのための自己教師型基礎モデルBrainFoundを紹介する。
BrainFoundはDINO-v2を、シーケンシャルMRIスライスからの情報を取り込むことで、完全な3D脳解剖学をモデル化する。
シングルモーダル入力とマルチモーダル入力の両方をサポートし、疾患検出やイメージセグメンテーションなど、幅広い下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-10-27T15:19:46Z) - M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision [24.846428105192405]
我々は、モダリティ固有のカスタマイズなしで、統一されたビジュアルエンコーダであるM3Retを訓練する。
生成的(MAE)およびコントラスト的(SimDINO)自己教師型学習(SSL)パラダイムを用いて、転送可能な表現をうまく学習する。
提案手法は,DINOv3 やテキスト教師付き BMC-CLIP などの強力なベースラインを超越して,すべてのモダリティを横断するゼロショット画像画像検索において,新たな最先端技術を実現する。
論文 参考訳(メタデータ) (2025-09-01T10:59:39Z) - Unified 3D MRI Representations via Sequence-Invariant Contrastive Learning [0.15749416770494706]
自己教師型深層学習は2次元の自然画像解析を加速させたが、3次元MRIへの変換は困難である。
定量的MRI(qMRI)を利用したemph-sequence-invariant self-supervised frameworkを提案する。
健常脳セグメンテーション(IXI)、脳梗塞セグメンテーション(ARC)、MRIによるデノイング実験は、ベースラインSSLアプローチよりも有意な増加を示した。
論文 参考訳(メタデータ) (2025-01-21T11:27:54Z) - MindFormer: Semantic Alignment of Multi-Subject fMRI for Brain Decoding [50.55024115943266]
本稿では,MindFormer を用いたマルチオブジェクト fMRI 信号のセマンティックアライメント手法を提案する。
このモデルは、fMRIから画像生成のための安定拡散モデルや、fMRIからテキスト生成のための大規模言語モデル(LLM)の条件付けに使用できるfMRI条件付き特徴ベクトルを生成するように設計されている。
実験の結果,MindFormerは意味的に一貫した画像とテキストを異なる主題にわたって生成することがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:36:25Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - 3D Brainformer: 3D Fusion Transformer for Brain Tumor Segmentation [6.127298607534532]
深層学習は、最近脳腫瘍のセグメンテーションを改善するために現れた。
変換器は畳み込みネットワークの限界に対処するために利用されてきた。
本稿では,3次元トランスフォーマーを用いたセグメンテーション手法を提案する。
論文 参考訳(メタデータ) (2023-04-28T02:11:29Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。