論文の概要: HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and
Parameter-Efficient 3D Image Segmentation
- arxiv url: http://arxiv.org/abs/2310.04466v1
- Date: Thu, 5 Oct 2023 18:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 18:31:22.606860
- Title: HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and
Parameter-Efficient 3D Image Segmentation
- Title(参考訳): HartleyMHA:高分解能・高効率3次元画像分割のための周波数領域における自己注意
- Authors: Ken C. L. Wong, Hongzhi Wang, Tanveer Syeda-Mahmood
- Abstract要約: 本稿では,効率的な自己注意による画像解像度のトレーニングに頑健なHartleyMHAモデルを提案する。
我々は、モデルサイズを桁違いに小さくするために、共有パラメータを持つハートレー変換を用いてFNOを変更する。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
- 参考スコア(独自算出の注目度): 4.48473804240016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the introduction of Transformers, different attention-based models have
been proposed for image segmentation with promising results. Although
self-attention allows capturing of long-range dependencies, it suffers from a
quadratic complexity in the image size especially in 3D. To avoid the
out-of-memory error during training, input size reduction is usually required
for 3D segmentation, but the accuracy can be suboptimal when the trained models
are applied on the original image size. To address this limitation, inspired by
the Fourier neural operator (FNO), we introduce the HartleyMHA model which is
robust to training image resolution with efficient self-attention. FNO is a
deep learning framework for learning mappings between functions in partial
differential equations, which has the appealing properties of zero-shot
super-resolution and global receptive field. We modify the FNO by using the
Hartley transform with shared parameters to reduce the model size by orders of
magnitude, and this allows us to further apply self-attention in the frequency
domain for more expressive high-order feature combination with improved
efficiency. When tested on the BraTS'19 dataset, it achieved superior
robustness to training image resolution than other tested models with less than
1% of their model parameters.
- Abstract(参考訳): トランスフォーマーの導入により、将来性のある画像分割のための異なる注意ベースモデルが提案されている。
セルフアテンションは長距離の依存関係をキャプチャできるが、特に3dでは画像サイズが2倍の複雑さに苦しむ。
トレーニング中のメモリ外エラーを避けるため、3dセグメンテーションには入力サイズ低減が必要となるが、トレーニングされたモデルが元の画像サイズに適用される場合、精度は最適ではない。
フーリエニューラル演算子(FNO)にインスパイアされたこの制限に対処するため、効率的な自己注意で画像解像度のトレーニングに頑健なHartleyMHAモデルを導入する。
FNOは偏微分方程式の関数間の写像を学習するための深層学習フレームワークであり、ゼロショット超解と大域受容場の魅力的な性質を持つ。
共用パラメータ付きハートレー変換を用いてfnoを修正し,モデルサイズを桁違いに削減し,より表現力の高い高次特徴の組合せに対して,周波数領域に自己照準を適用可能とした。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
関連論文リスト
- 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文 参考訳(メタデータ) (2024-11-01T12:50:38Z) - Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation [36.45488536471859]
類似性は、ラベルのない画像を使用することで画像と画像の類似性を洗練する。
重みは、トレーニングサンプル間の関係を適切にモデル化するために、精度行列を重み関数に導入する。
GPの複雑さを低減するため,グループベースの学習戦略を提案する。
論文 参考訳(メタデータ) (2024-10-11T15:12:30Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - FNOSeg3D: Resolution-Robust 3D Image Segmentation with Fourier Neural
Operator [4.48473804240016]
フーリエニューラル演算子(FNO)に基づく画像解像度のトレーニングに頑健な3次元セグメンテーションモデルFNOSeg3Dを導入する。
BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
論文 参考訳(メタデータ) (2023-10-05T19:58:36Z) - Generative Multiplane Neural Radiance for 3D-Aware Image Generation [102.15322193381617]
本稿では,複数のターゲットビューに対して連続した3次元高解像度画像を効率よく生成する手法を提案する。
我々のGMNRモデルは、単一のV100上で17.6FPSの1024×1024ピクセルの3D認識画像を生成する。
論文 参考訳(メタデータ) (2023-04-03T17:41:20Z) - Super-Resolution Based Patch-Free 3D Image Segmentation with
High-Frequency Guidance [20.86089285980103]
磁気共鳴画像(MRI)やCT(CT)などの医用画像など,近年,高分解能(HR)3D画像が広く利用されている。
論文 参考訳(メタデータ) (2022-10-26T11:46:08Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Deep Learning for Regularization Prediction in Diffeomorphic Image
Registration [8.781861951759948]
微分同相変換の滑らかさを制御するパラメータを自動的に決定する新しいフレームワークを導入する。
画像登録の正規化パラメータとペア画像間のマッピングを学習する深層畳み込みニューラルネットワーク(CNN)に基づく予測モデルを開発した。
実験結果から,本モデルは画像登録のための適切な正規化パラメータを予測できるだけでなく,時間とメモリ効率の面でネットワークトレーニングを改善することが示唆された。
論文 参考訳(メタデータ) (2020-11-28T22:56:44Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。