論文の概要: EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration
- arxiv url: http://arxiv.org/abs/2403.11026v1
- Date: Sat, 16 Mar 2024 22:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 20:36:44.387892
- Title: EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration
- Title(参考訳): 効率的なMorph: 3次元画像登録のためのパラメータ効率の良いトランスフォーマーベースアーキテクチャ
- Authors: Abu Zahid Bin Aziz, Mokshagna Sai Teja Karanam, Tushar Kataria, Shireen Y. Elhabian,
- Abstract要約: 教師なし3次元画像登録のためのトランスフォーマーベースアーキテクチャであるEfficientMorphを提案する。
航空機をベースとしたアテンション機構を通じて、地域と世界的なアテンションのバランスを最適化する。
カスケードされたグループアテンションによって計算の冗長性を低減し、計算効率を損なうことなく細部をキャプチャする。
- 参考スコア(独自算出の注目度): 1.741980945827445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have emerged as the state-of-the-art architecture in medical image registration, outperforming convolutional neural networks (CNNs) by addressing their limited receptive fields and overcoming gradient instability in deeper models. Despite their success, transformer-based models require substantial resources for training, including data, memory, and computational power, which may restrict their applicability for end users with limited resources. In particular, existing transformer-based 3D image registration architectures face three critical gaps that challenge their efficiency and effectiveness. Firstly, while mitigating the quadratic complexity of full attention by focusing on local regions, window-based attention mechanisms often fail to adequately integrate local and global information. Secondly, feature similarities across attention heads that were recently found in multi-head attention architectures indicate a significant computational redundancy, suggesting that the capacity of the network could be better utilized to enhance performance. Lastly, the granularity of tokenization, a key factor in registration accuracy, presents a trade-off; smaller tokens improve detail capture at the cost of higher computational complexity, increased memory demands, and a risk of overfitting. Here, we propose EfficientMorph, a transformer-based architecture for unsupervised 3D image registration. It optimizes the balance between local and global attention through a plane-based attention mechanism, reduces computational redundancy via cascaded group attention, and captures fine details without compromising computational efficiency, thanks to a Hi-Res tokenization strategy complemented by merging operations. Notably, EfficientMorph sets a new benchmark for performance on the OASIS dataset with 16-27x fewer parameters.
- Abstract(参考訳): トランスフォーマーは、医療画像登録における最先端のアーキテクチャとして登場し、限定された受容領域に対処し、より深いモデルでの勾配不安定を克服することで、畳み込みニューラルネットワーク(CNN)を上回っている。
その成功にもかかわらず、トランスフォーマーベースのモデルは、データ、メモリ、計算能力を含むトレーニングのためのかなりのリソースを必要とし、限られたリソースを持つエンドユーザーに適用性を制限する可能性がある。
特に、既存のトランスフォーマーベースの3D画像登録アーキテクチャは、その効率性と有効性に挑戦する3つの重要なギャップに直面している。
第一に、局所に焦点をあてて注意の二次的複雑さを緩和する一方で、ウィンドウベースの注意機構は、局所的およびグローバルな情報を適切に統合することができないことが多い。
第二に、最近マルチヘッドアテンションアーキテクチャで発見されたアテンションヘッド間の特徴的類似性は、重要な計算冗長性を示し、ネットワークのキャパシティが性能向上に有効であることを示唆している。
最後に、トークン化の粒度は、登録精度の重要な要素であるトレードオフを示し、より小さなトークンは、高い計算複雑性、メモリ要求の増加、オーバーフィッティングのリスクを犠牲にして、詳細なキャプチャを改善する。
本稿では,教師なし3次元画像登録のためのトランスフォーマーベースアーキテクチャであるEfficientMorphを提案する。
平面ベースのアテンション機構を通じて局所的およびグローバル的アテンションのバランスを最適化し、カスケードされたグループアテンションを介して計算冗長性を低減し、マージ操作を補完するHi-Resトークン化戦略のおかげで、計算効率を損なうことなく細部をキャプチャする。
特に、EfficientMorphは16~27倍のパラメータでOASISデータセットのパフォーマンスベンチマークを設定している。
関連論文リスト
- Learning Dynamic Local Context Representations for Infrared Small Target Detection [5.897465234102489]
複雑な背景、低信号/クラッタ比、ターゲットサイズと形状の違いにより、赤外線小目標検出(ISTD)は困難である。
ISTDの動的局所文脈表現を学習する新しい手法であるLCRNetを提案する。
1.65Mのパラメータだけで、LCRNetは最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-23T09:06:27Z) - MambaClinix: Hierarchical Gated Convolution and Mamba-Based U-Net for Enhanced 3D Medical Image Segmentation [6.673169053236727]
医用画像分割のための新しいU字型アーキテクチャであるMambaClinixを提案する。
MambaClinixは、階層的なゲート畳み込みネットワークとMambaを適応的なステージワイドフレームワークに統合する。
以上の結果から,MambaClinixは低モデルの複雑さを維持しつつ高いセグメンテーション精度を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-09-19T07:51:14Z) - SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation [0.13654846342364302]
マルチスケールボリューム機能にまたがる注目度を算出する階層変換器であるSegFormer3Dを提案する。
SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して、ローカルおよびグローバルなアテンション機能を集約する。
広く使われている3つのデータセット上で、現在のSOTAモデルに対してSegFormer3Dをベンチマークする。
論文 参考訳(メタデータ) (2024-04-15T22:12:05Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。