論文の概要: Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification
- arxiv url: http://arxiv.org/abs/2601.21673v1
- Date: Thu, 29 Jan 2026 13:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.834759
- Title: Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification
- Title(参考訳): アルツハイマー病分類のためのマルチモーダルビジュアルサロゲート圧縮
- Authors: Dexuan Ding, Ciyuan Peng, Endrowednes Kuantama, Jingcai Guo, Jia Wu, Jian Yang, Amin Beheshti, Ming-Hsuan Yang, Yuankai Qi,
- Abstract要約: MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
- 参考スコア(独自算出の注目度): 69.87877580725768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-dimensional structural MRI (sMRI) images are widely used for Alzheimer's Disease (AD) diagnosis. Most existing methods for sMRI representation learning rely on 3D architectures (e.g., 3D CNNs), slice-wise feature extraction with late aggregation, or apply training-free feature extractions using 2D foundation models (e.g., DINO). However, these three paradigms suffer from high computational cost, loss of cross-slice relations, and limited ability to extract discriminative features, respectively. To address these challenges, we propose Multimodal Visual Surrogate Compression (MVSC). It learns to compress and adapt large 3D sMRI volumes into compact 2D features, termed as visual surrogates, which are better aligned with frozen 2D foundation models to extract powerful representations for final AD classification. MVSC has two key components: a Volume Context Encoder that captures global cross-slice context under textual guidance, and an Adaptive Slice Fusion module that aggregates slice-level information in a text-enhanced, patch-wise manner. Extensive experiments on three large-scale Alzheimer's disease benchmarks demonstrate our MVSC performs favourably on both binary and multi-class classification tasks compared against state-of-the-art methods.
- Abstract(参考訳): 高次元MRI像はアルツハイマー病(AD)の診断に広く用いられている。
既存のsMRI表現学習法のほとんどは、3Dアーキテクチャ(例: 3D CNN)、遅延集約によるスライスワイズ特徴抽出、または2D基礎モデル(例: DINO)を用いたトレーニング不要特徴抽出に頼っている。
しかし、これらの3つのパラダイムは、高い計算コスト、クロススライス関係の喪失、識別的特徴を抽出する限られた能力に悩まされている。
これらの課題に対処するため,マルチモーダル・ビジュアル・サロゲート・圧縮(MVSC)を提案する。
大規模な3D sMRIボリュームをコンパクトな2D特徴に圧縮し、適応させることを学び、視覚的サロゲートと呼ばれ、最終AD分類のための強力な表現を抽出するために凍結された2D基礎モデルと整合する。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストエンコーダと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
3つの大規模アルツハイマー病ベンチマークによる広範囲な実験により、MVSCは、最先端の手法と比較して、バイナリとマルチクラスの両方の分類タスクにおいて好適な性能を示した。
関連論文リスト
- SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - Masked LoGoNet: Fast and Accurate 3D Image Analysis for Medical Domain [46.44049019428938]
我々はLoGoNetと呼ばれる新しいニューラルネットワークアーキテクチャを導入する。
LoGoNetは、LKA(Large Kernel Attention)とデュアルエンコーディング戦略を利用して、U字型アーキテクチャに新しい特徴抽出器を統合する。
大規模ラベル付きデータセットの欠如を補うために,3次元画像に適した新しいSSL方式を提案する。
論文 参考訳(メタデータ) (2024-02-09T05:06:58Z) - CSAM: A 2.5D Cross-Slice Attention Module for Anisotropic Volumetric
Medical Image Segmentation [8.507902378556981]
ボリューム医学データ、特にMRIデータの大部分は異方性である。
3次元および純粋に2次元の深層学習に基づくセグメンテーション法は、そのようなボリュームデータを扱うには不十分である。
我々は、最小限のトレーニング可能なパラメータを持つクロススライス注意モジュール(CSAM)を提供し、ボリューム内のすべてのスライスに関する情報をキャプチャします。
論文 参考訳(メタデータ) (2023-11-08T02:13:26Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z) - Multi-Modality Multi-Scale Cardiovascular Disease Subtypes
Classification Using Raman Image and Medical History [2.9315342447802317]
これらの問題に対処する2つのコアモジュールを持つ新しいディープラーニング手法であるM3Sというマルチモードマルチスケールモデルを提案する。
まず,図形角度場(GAF)による様々な解像度画像にRSデータを変換してニュアンスを拡大する。
第2に、RSと医療履歴データを組み合わせて分類能力を高めるために、確率行列と重み行列を用いる。
論文 参考訳(メタデータ) (2023-04-18T22:09:16Z) - PCRLv2: A Unified Visual Information Preservation Framework for
Self-supervised Pre-training in Medical Image Analysis [56.63327669853693]
本稿では,ピクセルレベルの情報を高レベルなセマンティクスに明示的にエンコードするための画素復元タスクを提案する。
また,画像理解を支援する強力なツールであるスケール情報の保存についても検討する。
提案されている統合SSLフレームワークは、さまざまなタスクで自己管理されたフレームワークを超越している。
論文 参考訳(メタデータ) (2023-01-02T17:47:27Z) - Modelling the Distribution of 3D Brain MRI using a 2D Slice VAE [66.63629641650572]
本研究では,2次元スライスVAEとガウスモデルを組み合わせた3次元MR脳の体積分布をモデル化する手法を提案する。
また,本研究では,脳解剖学に適合するセグメンテーションの精度を定量的に評価する新たなボリューム評価手法を提案する。
論文 参考訳(メタデータ) (2020-07-09T13:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。