論文の概要: MSD-KMamba: Bidirectional Spatial-Aware Multi-Modal 3D Brain Segmentation via Multi-scale Self-Distilled Fusion Strategy
- arxiv url: http://arxiv.org/abs/2509.23677v1
- Date: Sun, 28 Sep 2025 06:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.36919
- Title: MSD-KMamba: Bidirectional Spatial-Aware Multi-Modal 3D Brain Segmentation via Multi-scale Self-Distilled Fusion Strategy
- Title(参考訳): MSD-KMamba:マルチスケール自己拡張核融合戦略による双方向空間認識型マルチモーダル3次元脳セグメンテーション
- Authors: Dayu Tan, Ziwei Zhang, Yansan Su, Xin Peng, Yike Dai, Chunhou Zheng, Weimin Zhong,
- Abstract要約: 本稿では,新しい3次元マルチモーダル画像分割フレームワークMSD-KMambaを提案する。
双方向の空間知覚とマルチスケールの自己蒸留を統合している。
我々のフレームワークは、セグメンテーション精度、ロバスト性、一般化における最先端の手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 15.270952880303533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous CNN-Transformer hybrid models rely on high-complexity global attention mechanisms to capture long-range dependencies, which introduces non-linear computational complexity and leads to significant resource consumption. Although knowledge distillation and sparse attention mechanisms can improve efficiency, they often fall short of delivering the high segmentation accuracy necessary for complex tasks. Balancing model performance with computational efficiency remains a critical challenge. In this work, we propose a novel 3D multi-modal image segmentation framework, termed MSD-KMamba, which integrates bidirectional spatial perception with multi-scale self-distillation. The bidirectional spatial aware branch effectively captures long-range spatial context dependencies across brain regions, while also incorporating a powerful nonlinear feature extraction mechanism that further enhances the model's ability to learn complex and heterogeneous patterns. In addition, the proposed multi-scale self-distilled fusion strategy strengthens hierarchical feature representations and improves the transfer of semantic information at different resolution levels. By jointly leveraging the bidirectional spatial perception branch and the multi-scale self-distilled fusion strategy, our framework effectively mitigates the bottleneck of quadratic computational complexity in volumetric segmentation, while simultaneously addressing the limitation of insufficient global perception. Extensive experiments on multiple standard benchmark datasets demonstrate that MSD-KMamba consistently outperforms state-of-the-art methods in segmentation accuracy, robustness, and generalization, while maintaining high computational efficiency and favorable scalability. The source code of MSD-KMamba is publicly available at https://github.com/daimao-zhang/MSD-KMamba.
- Abstract(参考訳): 多くのCNN-Transformerハイブリッドモデルは、長距離依存を捉えるために、複雑でグローバルな注意機構に依存している。
知識蒸留とスパースアテンション機構は効率を向上させることができるが、複雑なタスクに必要な高いセグメンテーション精度を提供するには不十分であることが多い。
計算効率とモデル性能のバランスをとることは依然として重要な課題である。
本研究では,MSD-KMambaと呼ばれる,双方向空間認識とマルチスケール自己蒸留を統合した新しい3次元マルチモーダル画像分割フレームワークを提案する。
双方向空間認識分岐は、脳領域全体にわたる長距離空間コンテキスト依存性を効果的に捕捉すると同時に、複雑で不均一なパターンを学習するモデルの能力をさらに強化する強力な非線形特徴抽出機構を取り入れている。
さらに,提案手法は階層的特徴表現を強化し,異なる解像度レベルでの意味情報の伝達を改善する。
両方向の空間知覚分枝と多スケールの自己蒸留融合戦略を併用することにより,大域的認識の限界に対処しつつ,体積分割における2次計算複雑性のボトルネックを効果的に軽減する。
複数の標準ベンチマークデータセットに対する大規模な実験により、MSD-KMambaは高い計算効率と良好なスケーラビリティを維持しつつ、セグメンテーション精度、ロバスト性、一般化において最先端の手法を一貫して上回ることを示した。
MSD-KMambaのソースコードはhttps://github.com/daimao-zhang/MSD-KMambaで公開されている。
関連論文リスト
- RL-U$^2$Net: A Dual-Branch UNet with Reinforcement Learning-Assisted Multimodal Feature Fusion for Accurate 3D Whole-Heart Segmentation [0.624829068285122]
機能アライメントのための強化学習により強化されたデュアルブランチU-Netアーキテクチャを提案する。
このモデルは、デュアルブランチU字型ネットワークを用いて、CTとMRIのパッチを並列に処理し、新しいRL-XAlignモジュールを導入する。
公開されているMM-WHS 2017データセットの実験結果は、提案されたRL-U$2$Netが既存の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-08-04T16:12:06Z) - MVNet: Hyperspectral Remote Sensing Image Classification Based on Hybrid Mamba-Transformer Vision Backbone Architecture [12.168520751389622]
ハイパースペクトル画像(HSI)分類は、高次元データ、限られたトレーニングサンプル、スペクトル冗長性といった課題に直面している。
本稿では,3D-CNNの局所特徴抽出,Transformerのグローバルモデリング,Mambaの線形シーケンスモデリング機能を統合した新しいMVNetネットワークアーキテクチャを提案する。
IN、UP、KSCデータセットでは、MVNetは分類精度と計算効率の両方で主流のハイパースペクトル画像分類法より優れている。
論文 参考訳(メタデータ) (2025-07-06T14:52:26Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
画像超解像(SR)タスクのためのマルチランジアテンショントランス (MAT) を提案する。
MATはマルチレンジ・アテンション(MA)とスパース・マルチレンジ・アテンション(SMA)の両方を促進する。
また、MSConvStarモジュールを導入し、マルチレンジ表現学習におけるモデルの能力を高める。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [51.89707241449435]
本稿では,高分解能表現CNNにマルチヘッド自己認識を効率よく組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。