論文の概要: HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and
Parameter-Efficient 3D Image Segmentation
- arxiv url: http://arxiv.org/abs/2310.04466v1
- Date: Thu, 5 Oct 2023 18:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 18:31:22.606860
- Title: HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and
Parameter-Efficient 3D Image Segmentation
- Title(参考訳): HartleyMHA:高分解能・高効率3次元画像分割のための周波数領域における自己注意
- Authors: Ken C. L. Wong, Hongzhi Wang, Tanveer Syeda-Mahmood
- Abstract要約: 本稿では,効率的な自己注意による画像解像度のトレーニングに頑健なHartleyMHAモデルを提案する。
我々は、モデルサイズを桁違いに小さくするために、共有パラメータを持つハートレー変換を用いてFNOを変更する。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
- 参考スコア(独自算出の注目度): 4.48473804240016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the introduction of Transformers, different attention-based models have
been proposed for image segmentation with promising results. Although
self-attention allows capturing of long-range dependencies, it suffers from a
quadratic complexity in the image size especially in 3D. To avoid the
out-of-memory error during training, input size reduction is usually required
for 3D segmentation, but the accuracy can be suboptimal when the trained models
are applied on the original image size. To address this limitation, inspired by
the Fourier neural operator (FNO), we introduce the HartleyMHA model which is
robust to training image resolution with efficient self-attention. FNO is a
deep learning framework for learning mappings between functions in partial
differential equations, which has the appealing properties of zero-shot
super-resolution and global receptive field. We modify the FNO by using the
Hartley transform with shared parameters to reduce the model size by orders of
magnitude, and this allows us to further apply self-attention in the frequency
domain for more expressive high-order feature combination with improved
efficiency. When tested on the BraTS'19 dataset, it achieved superior
robustness to training image resolution than other tested models with less than
1% of their model parameters.
- Abstract(参考訳): トランスフォーマーの導入により、将来性のある画像分割のための異なる注意ベースモデルが提案されている。
セルフアテンションは長距離の依存関係をキャプチャできるが、特に3dでは画像サイズが2倍の複雑さに苦しむ。
トレーニング中のメモリ外エラーを避けるため、3dセグメンテーションには入力サイズ低減が必要となるが、トレーニングされたモデルが元の画像サイズに適用される場合、精度は最適ではない。
フーリエニューラル演算子(FNO)にインスパイアされたこの制限に対処するため、効率的な自己注意で画像解像度のトレーニングに頑健なHartleyMHAモデルを導入する。
FNOは偏微分方程式の関数間の写像を学習するための深層学習フレームワークであり、ゼロショット超解と大域受容場の魅力的な性質を持つ。
共用パラメータ付きハートレー変換を用いてfnoを修正し,モデルサイズを桁違いに削減し,より表現力の高い高次特徴の組合せに対して,周波数領域に自己照準を適用可能とした。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
関連論文リスト
- Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - FNOSeg3D: Resolution-Robust 3D Image Segmentation with Fourier Neural
Operator [4.48473804240016]
フーリエニューラル演算子(FNO)に基づく画像解像度のトレーニングに頑健な3次元セグメンテーションモデルFNOSeg3Dを導入する。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
論文 参考訳(メタデータ) (2023-10-05T19:58:36Z) - Generative Multiplane Neural Radiance for 3D-Aware Image Generation [102.15322193381617]
本稿では,複数のターゲットビューに対して連続した3次元高解像度画像を効率よく生成する手法を提案する。
我々のGMNRモデルは、単一のV100上で17.6FPSの1024×1024ピクセルの3D認識画像を生成する。
論文 参考訳(メタデータ) (2023-04-03T17:41:20Z) - Super-Resolution Based Patch-Free 3D Image Segmentation with
High-Frequency Guidance [20.86089285980103]
磁気共鳴画像(MRI)やCT(CT)などの医用画像など,近年,高分解能(HR)3D画像が広く利用されている。
論文 参考訳(メタデータ) (2022-10-26T11:46:08Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - A Novel Patch Convolutional Neural Network for View-based 3D Model
Retrieval [36.12906920608775]
ビューベース3次元モデル検索のための新しいパッチ畳み込みニューラルネットワーク(PCNN)を提案する。
提案したPCNNは, それぞれ93.67%, 96.23%と, 最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-09-25T07:18:23Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Deep Learning for Regularization Prediction in Diffeomorphic Image
Registration [8.781861951759948]
微分同相変換の滑らかさを制御するパラメータを自動的に決定する新しいフレームワークを導入する。
画像登録の正規化パラメータとペア画像間のマッピングを学習する深層畳み込みニューラルネットワーク(CNN)に基づく予測モデルを開発した。
実験結果から,本モデルは画像登録のための適切な正規化パラメータを予測できるだけでなく,時間とメモリ効率の面でネットワークトレーニングを改善することが示唆された。
論文 参考訳(メタデータ) (2020-11-28T22:56:44Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。