論文の概要: SHMoAReg: Spark Deformable Image Registration via Spatial Heterogeneous Mixture of Experts and Attention Heads
- arxiv url: http://arxiv.org/abs/2509.20073v1
- Date: Wed, 24 Sep 2025 12:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.812264
- Title: SHMoAReg: Spark Deformable Image Registration via Spatial Heterogeneous Mixture of Experts and Attention Heads
- Title(参考訳): SHMoAReg: エキスパートとアテンションヘッドの空間的不均一な混合による火花変形可能な画像登録
- Authors: Yuxi Zheng, Jianhui Feng, Tianran Li, Marius Staring, Yuchuan Qiao,
- Abstract要約: SHMoARegという名前のエンコーダとデコーダの両方にMixture of Experts (MoE) 機構を応用した新しいエキスパート誘導型DIRネットワークを提案する。
MoARegは、各画像トークンに対するアテンションヘッドの最適な組み合わせを動的に選択することで、特徴抽出の特殊化を強化する。
2つの公開データセットで実施された実験は、様々な方法に対して一貫した改善が見られ、腹部CTデータセットのDiceスコアが60.58%から65.58%に顕著に増加した。
- 参考スコア(独自算出の注目度): 2.569135678812198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encoder-Decoder architectures are widely used in deep learning-based Deformable Image Registration (DIR), where the encoder extracts multi-scale features and the decoder predicts deformation fields by recovering spatial locations. However, current methods lack specialized extraction of features (that are useful for registration) and predict deformation jointly and homogeneously in all three directions. In this paper, we propose a novel expert-guided DIR network with Mixture of Experts (MoE) mechanism applied in both encoder and decoder, named SHMoAReg. Specifically, we incorporate Mixture of Attention heads (MoA) into encoder layers, while Spatial Heterogeneous Mixture of Experts (SHMoE) into the decoder layers. The MoA enhances the specialization of feature extraction by dynamically selecting the optimal combination of attention heads for each image token. Meanwhile, the SHMoE predicts deformation fields heterogeneously in three directions for each voxel using experts with varying kernel sizes. Extensive experiments conducted on two publicly available datasets show consistent improvements over various methods, with a notable increase from 60.58% to 65.58% in Dice score for the abdominal CT dataset. Furthermore, SHMoAReg enhances model interpretability by differentiating experts' utilities across/within different resolution layers. To the best of our knowledge, we are the first to introduce MoE mechanism into DIR tasks. The code will be released soon.
- Abstract(参考訳): エンコーダ-デコーダアーキテクチャは、深層学習に基づく変形可能な画像登録 (DIR) において広く用いられ、そこではエンコーダがマルチスケールの特徴を抽出し、デコーダは空間的位置を復元することで変形場を予測する。
しかし、現在の手法では、特徴の特殊抽出(登録に有用な)が欠如しており、3方向すべてで共同で均一に変形を予測する。
本稿では, SHMoAReg という名前のエンコーダとデコーダの両方に適用可能なMixture of Experts (MoE) 機構を備えた新しいエキスパート誘導型DIRネットワークを提案する。
具体的には、Mixture of Attention Head (MoA) をエンコーダ層に、Spatial Heterogeneous Mixture of Experts (SHMoE) をデコーダ層に組み込む。
MoAは、各画像トークンに対するアテンションヘッドの最適な組み合わせを動的に選択することにより、特徴抽出の特殊化を強化する。
一方、SHMoEは、異なるカーネルサイズの専門家を用いて、各ボクセルの3方向の変形場を均一に予測する。
2つの公開データセットで実施された大規模な実験では、様々な方法に対して一貫した改善が見られ、腹部CTデータセットのDiceスコアは60.58%から65.58%に顕著に増加した。
さらにSHMoARegは、専門家のユーティリティを異なる解像度層で差別化することで、モデルの解釈可能性を高める。
我々の知る限りでは、DIRタスクにMoEメカニズムを導入するのは初めてです。
コードはまもなくリリースされる。
関連論文リスト
- MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Optimizing Medical Image Segmentation with Advanced Decoder Design [0.8402155549849591]
U-Netは、シンプルで柔軟なアーキテクチャ設計のため、医用画像のセグメンテーションで広く使われている。
提案するSwin DER(Swin UNETR Decoder Enhanced and Refined)は,これらの3つのコンポーネントの設計を最適化する。
我々のモデル設計は、SynapseとMSDの脳腫瘍セグメント化タスクの両方において、最先端の手法を超越して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-05T11:47:13Z) - Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding [90.77521413857448]
深層生成モデルは,3つのコア機能 – 新たなインスタンスの生成,入力の再構築,コンパクト表現の学習 – に固定されている。
一般化逆変換拡散確率モデル(EDDPM)を導入する。
EDDPMはパラメタライズされた符号化復号を導入することで標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験は、多様なデータやタスクを扱う柔軟性を示している。
論文 参考訳(メタデータ) (2024-02-29T10:08:57Z) - SS-MAE: Spatial-Spectral Masked Auto-Encoder for Multi-Source Remote
Sensing Image Classification [35.52272615695294]
本研究では,HSIとLiDAR/SARデータ共同分類のための空間スペクトルマスク付きオートエンコーダ(SS-MAE)を提案する。
我々のSS-MAEは入力データの空間的およびスペクトル的表現を完全に活用する。
訓練段階における局所的な特徴を補完するため、特徴抽出のために2つの軽量CNNを追加します。
論文 参考訳(メタデータ) (2023-11-08T03:54:44Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Exploring and Exploiting Multi-Granularity Representations for Machine
Reading Comprehension [13.191437539419681]
適応的双方向注意カプセルネットワーク(ABA-Net)という新しい手法を提案する。
ABA-Netは、異なるレベルのソース表現を予測子に適応的に活用する。
私たちはSQuAD 1.0データセットに新しい最先端パフォーマンスを設定しました。
論文 参考訳(メタデータ) (2022-08-18T10:14:32Z) - HydraSum -- Disentangling Stylistic Features in Text Summarization using
Multi-Decoder Models [12.070474521259776]
現在のモデルの単一デコーダフレームワークを拡張した,新しい要約アーキテクチャであるHydraSumを紹介する。
提案モデルでは,各専門家,すなわちデコーダに対して,スタイリスティックな要約の学習と生成を奨励する。
トレーニングプロセスのガイド付きバージョンは、デコーダ間でどのサマリスタイルが分割されているかを明示的に規定することができる。
論文 参考訳(メタデータ) (2021-10-08T22:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。