論文の概要: EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration
- arxiv url: http://arxiv.org/abs/2403.11026v1
- Date: Sat, 16 Mar 2024 22:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-19 20:36:44.387892
- Title: EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration
- Title(参考訳): 効率的なMorph: 3次元画像登録のためのパラメータ効率の良いトランスフォーマーベースアーキテクチャ
- Authors: Abu Zahid Bin Aziz, Mokshagna Sai Teja Karanam, Tushar Kataria, Shireen Y. Elhabian,
- Abstract要約: 教師なし3次元画像登録のためのトランスフォーマーベースアーキテクチャであるEfficientMorphを提案する。
航空機をベースとしたアテンション機構を通じて、地域と世界的なアテンションのバランスを最適化する。
カスケードされたグループアテンションによって計算の冗長性を低減し、計算効率を損なうことなく細部をキャプチャする。
- 参考スコア(独自算出の注目度): 1.741980945827445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have emerged as the state-of-the-art architecture in medical image registration, outperforming convolutional neural networks (CNNs) by addressing their limited receptive fields and overcoming gradient instability in deeper models. Despite their success, transformer-based models require substantial resources for training, including data, memory, and computational power, which may restrict their applicability for end users with limited resources. In particular, existing transformer-based 3D image registration architectures face three critical gaps that challenge their efficiency and effectiveness. Firstly, while mitigating the quadratic complexity of full attention by focusing on local regions, window-based attention mechanisms often fail to adequately integrate local and global information. Secondly, feature similarities across attention heads that were recently found in multi-head attention architectures indicate a significant computational redundancy, suggesting that the capacity of the network could be better utilized to enhance performance. Lastly, the granularity of tokenization, a key factor in registration accuracy, presents a trade-off; smaller tokens improve detail capture at the cost of higher computational complexity, increased memory demands, and a risk of overfitting. Here, we propose EfficientMorph, a transformer-based architecture for unsupervised 3D image registration. It optimizes the balance between local and global attention through a plane-based attention mechanism, reduces computational redundancy via cascaded group attention, and captures fine details without compromising computational efficiency, thanks to a Hi-Res tokenization strategy complemented by merging operations. Notably, EfficientMorph sets a new benchmark for performance on the OASIS dataset with 16-27x fewer parameters.
- Abstract(参考訳): トランスフォーマーは、医療画像登録における最先端のアーキテクチャとして登場し、限定された受容領域に対処し、より深いモデルでの勾配不安定を克服することで、畳み込みニューラルネットワーク(CNN)を上回っている。
その成功にもかかわらず、トランスフォーマーベースのモデルは、データ、メモリ、計算能力を含むトレーニングのためのかなりのリソースを必要とし、限られたリソースを持つエンドユーザーに適用性を制限する可能性がある。
特に、既存のトランスフォーマーベースの3D画像登録アーキテクチャは、その効率性と有効性に挑戦する3つの重要なギャップに直面している。
第一に、局所に焦点をあてて注意の二次的複雑さを緩和する一方で、ウィンドウベースの注意機構は、局所的およびグローバルな情報を適切に統合することができないことが多い。
第二に、最近マルチヘッドアテンションアーキテクチャで発見されたアテンションヘッド間の特徴的類似性は、重要な計算冗長性を示し、ネットワークのキャパシティが性能向上に有効であることを示唆している。
最後に、トークン化の粒度は、登録精度の重要な要素であるトレードオフを示し、より小さなトークンは、高い計算複雑性、メモリ要求の増加、オーバーフィッティングのリスクを犠牲にして、詳細なキャプチャを改善する。
本稿では,教師なし3次元画像登録のためのトランスフォーマーベースアーキテクチャであるEfficientMorphを提案する。
平面ベースのアテンション機構を通じて局所的およびグローバル的アテンションのバランスを最適化し、カスケードされたグループアテンションを介して計算冗長性を低減し、マージ操作を補完するHi-Resトークン化戦略のおかげで、計算効率を損なうことなく細部をキャプチャする。
特に、EfficientMorphは16~27倍のパラメータでOASISデータセットのパフォーマンスベンチマークを設定している。
関連論文リスト
- Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - LandMarkSystem Technical Report [4.885906902650898]
3D再構成は、自動運転、仮想現実、拡張現実、メタバースなどの応用に不可欠である。
ニューラル・ラディアンス・フィールド(NeRF)や3Dガウス・スプレイティング(3DGS)といった最近の進歩は、この分野を変えつつあるが、従来のディープラーニングフレームワークは、シーンの品質とスケールの増大に対する需要を満たすのに苦労している。
本稿では,マルチスケールなシーン再構成とレンダリングを実現するための新しい計算フレームワークであるLandMarkSystemを紹介する。
論文 参考訳(メタデータ) (2025-03-27T10:55:36Z) - MaskAttn-UNet: A Mask Attention-Driven Framework for Universal Low-Resolution Image Segmentation [5.130440339897479]
MaskAttn-UNetはマスクアテンション機構を通じて従来のU-Netアーキテクチャを強化する新しいセグメンテーションフレームワークである。
本モデルでは,無関係な背景を抑えながら重要な領域を選択的に強調し,乱れや複雑なシーンのセグメンテーション精度を向上させる。
以上の結果から,MaskAttn-UNetは変圧器モデルよりも計算コストが大幅に低く,最先端の手法に匹敵する精度を達成できた。
論文 参考訳(メタデータ) (2025-03-11T22:43:26Z) - SegResMamba: An Efficient Architecture for 3D Medical Image Segmentation [2.979183050755201]
本稿では,SegResMambaという医用画像の効率的な3次元分割モデルを提案する。
我々のモデルは、他の最先端(SOTA)アーキテクチャと比較して、トレーニング中に半分未満のメモリを使用します。
論文 参考訳(メタデータ) (2025-03-10T18:40:28Z) - Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference [1.0919012968294923]
本稿では,頭部の疎度を用いてトランスフォーマーを高速化し,疎度をブロックし,注意の計算を減らし,メモリアクセスを減らし,新しいアルゴリズムアーキテクチャの共設計手法を提案する。
注目スコアと注目ヘッドの巨大な冗長性を観測し、実行時に注目行列内の重要でないブロックをプルーする整数ベースの行平衡ブロックプルーニングを提案する。
また、実行時に重要でないヘッドを検出およびプルーする整数ベースのヘッドプルーニングを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:15:16Z) - TRIP: Trainable Region-of-Interest Prediction for Hardware-Efficient Neuromorphic Processing on Event-based Vision [33.803108353747305]
Trainable Region-of-Interest Prediction (TRIP) は、ニューロモルフィックプロセッサ上でのイベントベースの視覚処理のためのフレームワークである。
TRIPはスパースイベント固有の低情報密度を利用してROI予測のオーバーヘッドを削減する。
我々の解法は、最先端の計算よりも46倍少ない精度で計算する必要がある。
論文 参考訳(メタデータ) (2024-06-25T12:04:51Z) - ReduceFormer: Attention with Tensor Reduction by Summation [4.985969607297595]
注意を払って効率よく最適化されたモデルのファミリーであるReduceeFormerを紹介します。
ReduceFormerは、reduceやement-wise multiplicationといった単純な操作のみを活用するため、アーキテクチャが大幅に単純化され、推論性能が向上した。
提案するモデルファミリは,計算資源とメモリ帯域幅が限られているエッジデバイスや,高いスループットを求めるクラウドコンピューティングに適している。
論文 参考訳(メタデータ) (2024-06-11T17:28:09Z) - SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation [0.13654846342364302]
マルチスケールボリューム機能にまたがる注目度を算出する階層変換器であるSegFormer3Dを提案する。
SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して、ローカルおよびグローバルなアテンション機能を集約する。
広く使われている3つのデータセット上で、現在のSOTAモデルに対してSegFormer3Dをベンチマークする。
論文 参考訳(メタデータ) (2024-04-15T22:12:05Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - Leveraging Frequency Domain Learning in 3D Vessel Segmentation [50.54833091336862]
本研究では,Fourier領域学習を3次元階層分割モデルにおけるマルチスケール畳み込みカーネルの代用として活用する。
管状血管分割作業において,新しいネットワークは顕著なサイス性能(ASACA500が84.37%,ImageCASが80.32%)を示した。
論文 参考訳(メタデータ) (2024-01-11T19:07:58Z) - Towards Compact 3D Representations via Point Feature Enhancement Masked
Autoencoders [52.66195794216989]
本稿では,コンパクトな3D表現を学習するために,ポイント特徴強調マスク付きオートエンコーダ(Point-FEMAE)を提案する。
Point-FEMAEはグローバルブランチとローカルブランチで構成され、潜在意味的特徴をキャプチャする。
本手法は, クロスモーダル方式と比較して, 事前学習効率を著しく向上させる。
論文 参考訳(メタデータ) (2023-12-17T14:17:05Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Hierarchical Residual Attention Network for Single Image
Super-Resolution [2.0571256241341924]
本稿では,残差特徴と注意集約の効率的な手法に基づく新しい軽量超解像モデルを提案する。
提案アーキテクチャは,比較的少ない計算量とメモリフットプリントを維持しながら,いくつかのデータセットにおける最先端性能を上回る。
論文 参考訳(メタデータ) (2020-12-08T17:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。