論文の概要: RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion
- arxiv url: http://arxiv.org/abs/2602.16320v1
- Date: Wed, 18 Feb 2026 09:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.568211
- Title: RefineFormer3D: Efficient 3D Medical Image Segmentation via Adaptive Multi-Scale Transformer with Cross Attention Fusion
- Title(参考訳): RefineFormer3D:クロスアテンション融合型適応型マルチスケール変圧器による高能率3次元医用画像分割
- Authors: Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal,
- Abstract要約: RefineFormer3Dは、医用画像のセグメンテーション精度と計算効率のバランスをとる軽量階層型トランスフォーマーアーキテクチャである。
このモデルは、メモリ要求の少ない高速な推論(8.35ms/GPU)を実現し、リソース制約のある臨床環境へのデプロイをサポートする。
- 参考スコア(独自算出の注目度): 6.372261626436676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and computationally efficient 3D medical image segmentation remains a critical challenge in clinical workflows. Transformer-based architectures often demonstrate superior global contextual modeling but at the expense of excessive parameter counts and memory demands, restricting their clinical deployment. We propose RefineFormer3D, a lightweight hierarchical transformer architecture that balances segmentation accuracy and computational efficiency for volumetric medical imaging. The architecture integrates three key components: (i) GhostConv3D-based patch embedding for efficient feature extraction with minimal redundancy, (ii) MixFFN3D module with low-rank projections and depthwise convolutions for parameter-efficient feature extraction, and (iii) a cross-attention fusion decoder enabling adaptive multi-scale skip connection integration. RefineFormer3D contains only 2.94M parameters, substantially fewer than contemporary transformer-based methods. Extensive experiments on ACDC and BraTS benchmarks demonstrate that RefineFormer3D achieves 93.44\% and 85.9\% average Dice scores respectively, outperforming or matching state-of-the-art methods while requiring significantly fewer parameters. Furthermore, the model achieves fast inference (8.35 ms per volume on GPU) with low memory requirements, supporting deployment in resource-constrained clinical environments. These results establish RefineFormer3D as an effective and scalable solution for practical 3D medical image segmentation.
- Abstract(参考訳): 正確な3次元医用画像のセグメンテーションは、臨床ワークフローにおいて重要な課題である。
トランスフォーマーベースのアーキテクチャは、優れたグローバルなコンテキストモデリングを示すことが多いが、過剰なパラメータ数とメモリ要求を犠牲にして、臨床展開を制限している。
本稿では,ボリューム医療画像のセグメント化精度と計算効率のバランスをとる軽量階層型トランスフォーマーアーキテクチャであるRefineFormer3Dを提案する。
アーキテクチャは3つの重要なコンポーネントを統合している。
(i)最小冗長性を持つ効率的な特徴抽出のためのGhostConv3Dベースのパッチ埋め込み。
二 パラメータ効率の良い特徴抽出のための低ランク投影と深度畳み込みを備えた混合FFN3Dモジュール
三 適応型マルチスケールスキップ接続統合が可能なクロスアテンションフュージョンデコーダ。
RefineFormer3Dは2.94Mのパラメータしか含まないが、現代のトランスフォーマーベースの手法よりもかなり少ない。
ACDC と BraTS のベンチマーク実験により、RefineFormer3D は平均 Dice スコア 93.44\% と 85.9\% をそれぞれ達成し、高いパラメータが要求される一方で、最先端の手法やマッチング方法よりも優れていた。
さらに、このモデルはメモリ要求の少ない高速な推論(8.35ms/GPU)を実現し、リソース制約のある臨床環境へのデプロイをサポートする。
これらの結果から,RefineFormer3Dは実用的な3次元医用画像セグメンテーションの有効かつスケーラブルなソリューションとして確立された。
関連論文リスト
- MuSASplat: Efficient Sparse-View 3D Gaussian Splats via Lightweight Multi-Scale Adaptation [92.57609195819647]
MuSASplatは、ポーズなしフィードフォワード3Dガウスモデルの計算負担を劇的に削減する新しいフレームワークである。
我々のアプローチの中心は、ほんのわずかなトレーニングパラメータだけで、ViTベースのアーキテクチャを効率的に微調整できる軽量なマルチスケールアダプタである。
論文 参考訳(メタデータ) (2025-12-08T04:56:46Z) - MLRU++: Multiscale Lightweight Residual UNETR++ with Attention for Efficient 3D Medical Image Segmentation [3.014234061484863]
セグメント化精度と計算効率のバランスをとるために設計されたマルチスケール軽量Residual UNETR++アーキテクチャ。
4つの公開ベンチマークデータセットの実験は、MLRU++が最先端のパフォーマンスを達成することを示した。
MLRU++は, 3次元画像分割タスクに対して, 実用的で高性能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-22T00:30:44Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - E2ENet: Dynamic Sparse Feature Fusion for Accurate and Efficient 3D Medical Image Segmentation [34.865695471451886]
E2ENet(Efficient to Efficient Network)と呼ばれる3次元医用画像分割モデルを提案する。
パラメトリックと計算効率の2つの設計が組み込まれている。
さまざまなリソース制約に対して、正確性と効率性のトレードオフを一貫して達成します。
論文 参考訳(メタデータ) (2023-12-07T22:13:37Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Revisiting 3D Context Modeling with Supervised Pre-training for
Universal Lesion Detection in CT Slices [48.85784310158493]
CTスライスにおける普遍的病変検出のための3Dコンテキスト強化2D特徴を効率的に抽出するための修飾擬似3次元特徴ピラミッドネットワーク(MP3D FPN)を提案する。
新たな事前学習手法により,提案したMP3D FPNは,DeepLesionデータセット上での最先端検出性能を実現する。
提案された3Dプリトレーニングウェイトは、他の3D医療画像分析タスクのパフォーマンスを高めるために使用できる。
論文 参考訳(メタデータ) (2020-12-16T07:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。