論文の概要: EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration
- arxiv url: http://arxiv.org/abs/2403.11026v2
- Date: Thu, 28 Nov 2024 02:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:23:03.855110
- Title: EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration
- Title(参考訳): 効率的なMorph: 3次元画像登録のためのパラメータ効率の良いトランスフォーマーベースアーキテクチャ
- Authors: Abu Zahid Bin Aziz, Mokshagna Sai Teja Karanam, Tushar Kataria, Shireen Y. Elhabian,
- Abstract要約: 教師なし3次元画像登録のためのトランスフォーマーベースのアーキテクチャであるnameを提示する。
nameは、平面ベースのアテンションメカニズムを通じて3Dボリュームのローカルとグローバルのアテンションをバランスさせ、Hi-Resトークン化戦略とマージ操作を使用する。
- 参考スコア(独自算出の注目度): 1.741980945827445
- License:
- Abstract: Transformers have emerged as the state-of-the-art architecture in medical image registration, outperforming convolutional neural networks (CNNs) by addressing their limited receptive fields and overcoming gradient instability in deeper models. Despite their success, transformer-based models require substantial resources for training, including data, memory, and computational power, which may restrict their applicability for end users with limited resources. In particular, existing transformer-based 3D image registration architectures face two critical gaps that challenge their efficiency and effectiveness. Firstly, although window-based attention mechanisms reduce the quadratic complexity of full attention by focusing on local regions, they often struggle to effectively integrate both local and global information. Secondly, the granularity of tokenization, a crucial factor in registration accuracy, presents a performance trade-off: smaller voxel-size tokens enhance detail capture but come with increased computational complexity, higher memory usage, and a greater risk of overfitting. We present \name, a transformer-based architecture for unsupervised 3D image registration that balances local and global attention in 3D volumes through a plane-based attention mechanism and employs a Hi-Res tokenization strategy with merging operations, thus capturing finer details without compromising computational efficiency. Notably, \name sets a new benchmark for performance on the OASIS dataset with 16-27x fewer parameters. https://github.com/MedVIC-Lab/Efficient_Morph_Registration
- Abstract(参考訳): トランスフォーマーは、医療画像登録における最先端のアーキテクチャとして登場し、限定された受容領域に対処し、より深いモデルでの勾配不安定を克服することで、畳み込みニューラルネットワーク(CNN)を上回りつつある。
その成功にもかかわらず、トランスフォーマーベースのモデルは、データ、メモリ、計算能力を含むトレーニングのためのかなりのリソースを必要とし、限られたリソースを持つエンドユーザーに適用性を制限する可能性がある。
特に、既存のトランスフォーマーベースの3D画像登録アーキテクチャは、その効率性と有効性に挑戦する2つの重要なギャップに直面している。
第一に、ウィンドウベースの注意機構は、局所に焦点をあてることによって、注意の2次的複雑さを減少させるが、ローカル情報とグローバル情報の両方を効果的に統合することに苦慮することが多い。
より小さなボクセルサイズのトークンは、詳細なキャプチャを高めるが、計算の複雑さが増大し、メモリ使用量が増加し、オーバーフィッティングのリスクが高くなる。
本稿では,非教師付き3次元画像登録のためのトランスフォーマーアーキテクチャである \name について述べる。これは3次元ボリュームの局所的およびグローバル的注意を平面的注意機構を通じてバランスさせ,Hi-Res トークン化戦略とマージ操作を併用することにより,計算効率を損なうことなく細部をキャプチャする。
特に、 \nameは16~27倍のパラメータでOASISデータセットのパフォーマンスベンチマークを設定する。
https://github.com/MedVIC-Lab/Efficient_Morph_Registration
関連論文リスト
- Learning Dynamic Local Context Representations for Infrared Small Target Detection [5.897465234102489]
複雑な背景、低信号/クラッタ比、ターゲットサイズと形状の違いにより、赤外線小目標検出(ISTD)は困難である。
ISTDの動的局所文脈表現を学習する新しい手法であるLCRNetを提案する。
1.65Mのパラメータだけで、LCRNetは最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-23T09:06:27Z) - MambaClinix: Hierarchical Gated Convolution and Mamba-Based U-Net for Enhanced 3D Medical Image Segmentation [6.673169053236727]
医用画像分割のための新しいU字型アーキテクチャであるMambaClinixを提案する。
MambaClinixは、階層的なゲート畳み込みネットワークとMambaを適応的なステージワイドフレームワークに統合する。
以上の結果から,MambaClinixは低モデルの複雑さを維持しつつ高いセグメンテーション精度を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-09-19T07:51:14Z) - SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation [0.13654846342364302]
マルチスケールボリューム機能にまたがる注目度を算出する階層変換器であるSegFormer3Dを提案する。
SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して、ローカルおよびグローバルなアテンション機能を集約する。
広く使われている3つのデータセット上で、現在のSOTAモデルに対してSegFormer3Dをベンチマークする。
論文 参考訳(メタデータ) (2024-04-15T22:12:05Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。