論文の概要: NEMESIS: Noise-suppressed Efficient MAE with Enhanced Superpatch Integration Strategy
- arxiv url: http://arxiv.org/abs/2604.01612v1
- Date: Thu, 02 Apr 2026 04:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.276731
- Title: NEMESIS: Noise-suppressed Efficient MAE with Enhanced Superpatch Integration Strategy
- Title(参考訳): NEMESIS: スーパーパッチ統合戦略を強化した高効率MAE
- Authors: Kyeonghun Kim, Hyeonseok Jung, Youngung Han, Hyunsu Go, Eunseob Choi, Seongbin Park, Junsu Lim, Jiwon Yang, Sumin Lee, Insung Hwang, Ken Ying-Kai Liao, Nam-Joon Kim,
- Abstract要約: 本稿では,128x128x128スーパーパッチ上で動作するマスク付きオートエンコーダフレームワークNEMESISを提案する。
NEMESISのAUROCの平均値は0.9633であり、完全に微調整されたSuPreMとVoCoを上回っている。
スーパーパッチベースの設計は、フルボリュームベースラインの985.8 GFLOPに比べて、前方パス当たりの計算コストを31.0 GFLOPに削減する。
- 参考スコア(独自算出の注目度): 8.72059799097543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Volumetric CT imaging is essential for clinical diagnosis, yet annotating 3D volumes is expensive and time-consuming, motivating self-supervised learning (SSL) from unlabeled data. However, applying SSL to 3D CT remains challenging due to the high memory cost of full-volume transformers and the anisotropic spatial structure of CT data, which is not well captured by conventional masking strategies. We propose NEMESIS, a masked autoencoder (MAE) framework that operates on local 128x128x128 superpatches, enabling memory-efficient training while preserving anatomical detail. NEMESIS introduces three key components: (i) noise-enhanced reconstruction as a pretext task, (ii) Masked Anatomical Transformer Blocks (MATB) that perform dual-masking through parallel plane-wise and axis-wise token removal, and (iii) NEMESIS Tokens (NT) for cross-scale context aggregation. On the BTCV multi-organ classification benchmark, NEMESIS with a frozen backbone and a linear classifier achieves a mean AUROC of 0.9633, surpassing fully fine-tuned SuPreM (0.9493) and VoCo (0.9387). Under a low-label regime with only 10% of available annotations, it retains an AUROC of 0.9075, demonstrating strong label efficiency. Furthermore, the superpatch-based design reduces computational cost to 31.0 GFLOPs per forward pass, compared to 985.8 GFLOPs for the full-volume baseline, providing a scalable and robust foundation for 3D medical imaging.
- Abstract(参考訳): 臨床診断にはCT画像撮影が不可欠であるが、3Dボリュームの注釈付けは高価で時間を要するため、ラベルのないデータから自己教師付き学習(SSL)を動機付けている。
しかし, 3次元CTにSSLを適用することは, フルボリュームトランスのメモリコストが高く, 従来のマスキング手法ではうまく捉えられていないCTデータの異方性空間構造のため, 依然として困難である。
本稿では,局所的な128x128x128スーパーパッチで動作するマスク付きオートエンコーダ(MAE)フレームワークNEMESISを提案する。
NEMESISは3つの重要なコンポーネントを紹介します。
一 事前の業務としての騒音強化復興
二 平行面及び軸軸面トークン除去による二重マスキングを行う仮面変圧器ブロック(MATB)
三 大規模コンテキストアグリゲーションのためのNEMESIS Tokens(NT)
BTCVの多臓器分類ベンチマークでは、凍ったバックボーンと線形分類器を持つNEMESISは平均AUROCが0.9633であり、SuPreM(0.9493)およびVoCo(0.9387)を超える。
利用可能なアノテーションの10%しか持たない低ラベルの体制の下では、AUROCは0.9075であり、強力なラベル効率を示す。
さらに、スーパーパッチベースの設計は、計算コストを前方通過当たり31.0 GFLOPsに削減し、フルボリュームのベースラインでは985.8 GFLOPsに抑え、スケーラブルで堅牢な3D医療画像の基礎を提供する。
関連論文リスト
- MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - HARU-Net: Hybrid Attention Residual U-Net for Edge-Preserving Denoising in Cone-Beam Computed Tomography [0.4583541422554718]
コーンビームCT(CBCT)データの高品質デノナイズのための新しいハイブリッドアテンション残差U-Net(HARU-Net)を提案する。
HARU-Netは、SwinIRやUformerなどの最先端(SOTA)手法を一貫して上回り、最高のPSNR(37.52dB)、最高SSIM(0.9557)、最低GMSD(0.1084)を達成している。
この有効かつ臨床的に信頼性の高いCBCT復調法は,SOTA法に比べて計算コストが大幅に低い。
論文 参考訳(メタデータ) (2026-02-26T02:36:34Z) - A Hybrid Mamba-SAM Architecture for Efficient 3D Medical Image Segmentation [0.4358626952482685]
Mamba-SAMは、凍ったSAMエンコーダと、Mamba-based State Space Models (SSM)の線形時間効率と長距離モデリング機能を組み合わせた、新しくて効率的なハイブリッドアーキテクチャである。
本稿では,MFGC(Multi-Frequency Gated Convolution)を導入し,空間領域情報と周波数領域情報を3次元離散コサイン変換と適応ゲーティングにより共同解析することにより特徴表現を向上させる。
Dual-branch Mamba-SAM-Baseモデルでは、平均Diceスコアが0.906となり、UNet++ (0.907)に匹敵する。
論文 参考訳(メタデータ) (2026-01-31T10:51:17Z) - Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - U-Mamba2-SSL for Semi-Supervised Tooth and Pulp Segmentation in CBCT [44.3806898357896]
U-Mamba2-SSLは,U-Mamba2モデル上に構築され,多段階の学習戦略を用いる,新しい半教師付き学習フレームワークである。
U-Mamba2-SSLは平均スコア0.789、DSC0.917を隠しテストセットで達成し、STSR 2025のタスク1で1位となった。
論文 参考訳(メタデータ) (2025-09-24T14:19:33Z) - SegStitch: Multidimensional Transformer for Robust and Efficient Medical Imaging Segmentation [15.811141677039224]
最先端の手法、特にトランスフォーマーを利用した手法は、3Dセマンティックセグメンテーションにおいて顕著に採用されている。
しかし、局所的な特徴や計算の複雑さが無視されているため、普通の視覚変換器は困難に直面する。
本稿では,SegStitchを提案する。SegStitchは変圧器とODEブロックを結合した革新的なアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T12:05:02Z) - CIS-UNet: Multi-Class Segmentation of the Aorta in Computed Tomography
Angiography via Context-Aware Shifted Window Self-Attention [10.335899694123711]
大動脈セグメンテーションのためのディープラーニングモデルであるContext Infused Swin-UNet(CIS-UNet)を紹介する。
CIS-UNetは、CNNエンコーダ、対称デコーダ、スキップ接続、新しいコンテキスト対応シフトウィンドウ自己認識(CSW-SA)をボトルネックブロックとする階層型エンコーダデコーダ構造を採用している。
CIS-UNetは,従来のSwinUNetRセグメンテーションモデルよりも優れた平均Dice係数0.713を達成し,コンピュータ断層撮影(CT)の訓練を行った。
論文 参考訳(メタデータ) (2024-01-23T19:17:20Z) - Weakly supervised segmentation of intracranial aneurysms using a novel 3D focal modulation UNet [0.5106162890866905]
本稿では,新しい3次元焦点変調UNetであるFocalSegNetを提案する。
UIA検出では偽陽性率は0.21で感度は0.80であった。
論文 参考訳(メタデータ) (2023-08-06T03:28:08Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。