Fugu-MT 論文翻訳(概要): HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and Parameter-Efficient 3D Image Segmentation

論文の概要: HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and Parameter-Efficient 3D Image Segmentation

arxiv url: http://arxiv.org/abs/2310.04466v1
Date: Thu, 5 Oct 2023 18:44:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-12 18:31:22.606860
Title: HartleyMHA: Self-Attention in Frequency Domain for Resolution-Robust and Parameter-Efficient 3D Image Segmentation
Title（参考訳）: HartleyMHA:高分解能・高効率3次元画像分割のための周波数領域における自己注意
Authors: Ken C. L. Wong, Hongzhi Wang, Tanveer Syeda-Mahmood
Abstract要約: 本稿では,効率的な自己注意による画像解像度のトレーニングに頑健なHartleyMHAモデルを提案する。我々は、モデルサイズを桁違いに小さくするために、共有パラメータを持つハートレー変換を用いてFNOを変更する。 BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
参考スコア（独自算出の注目度）: 4.48473804240016
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the introduction of Transformers, different attention-based models have been proposed for image segmentation with promising results. Although self-attention allows capturing of long-range dependencies, it suffers from a quadratic complexity in the image size especially in 3D. To avoid the out-of-memory error during training, input size reduction is usually required for 3D segmentation, but the accuracy can be suboptimal when the trained models are applied on the original image size. To address this limitation, inspired by the Fourier neural operator (FNO), we introduce the HartleyMHA model which is robust to training image resolution with efficient self-attention. FNO is a deep learning framework for learning mappings between functions in partial differential equations, which has the appealing properties of zero-shot super-resolution and global receptive field. We modify the FNO by using the Hartley transform with shared parameters to reduce the model size by orders of magnitude, and this allows us to further apply self-attention in the frequency domain for more expressive high-order feature combination with improved efficiency. When tested on the BraTS'19 dataset, it achieved superior robustness to training image resolution than other tested models with less than 1% of their model parameters.
Abstract（参考訳）: トランスフォーマーの導入により、将来性のある画像分割のための異なる注意ベースモデルが提案されている。セルフアテンションは長距離の依存関係をキャプチャできるが、特に3dでは画像サイズが2倍の複雑さに苦しむ。トレーニング中のメモリ外エラーを避けるため、3dセグメンテーションには入力サイズ低減が必要となるが、トレーニングされたモデルが元の画像サイズに適用される場合、精度は最適ではない。フーリエニューラル演算子(FNO)にインスパイアされたこの制限に対処するため、効率的な自己注意で画像解像度のトレーニングに頑健なHartleyMHAモデルを導入する。 FNOは偏微分方程式の関数間の写像を学習するための深層学習フレームワークであり、ゼロショット超解と大域受容場の魅力的な性質を持つ。共用パラメータ付きハートレー変換を用いてfnoを修正し,モデルサイズを桁違いに削減し,より表現力の高い高次特徴の組合せに対して,周波数領域に自己照準を適用可能とした。 BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。

関連論文リスト

HNOSeg-XS: Extremely Small Hartley Neural Operator for Efficient and Resolution-Robust 3D Image Segmentation [3.990336239705776]
医用画像分割のための高分解能HNOSeg-XSアーキテクチャを提案する。解像度が堅牢で、高速で、メモリ効率が良く、パラメータ効率も極めて高い。 BraTS'23、KiTS'23、MVSeg'23のデータセットでTesla V100 GPUでテストされた。
論文参考訳（メタデータ） (2025-07-10T22:33:19Z)
3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文参考訳（メタデータ） (2024-11-01T12:50:38Z)
Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation [36.45488536471859]
類似性は、ラベルのない画像を使用することで画像と画像の類似性を洗練する。重みは、トレーニングサンプル間の関係を適切にモデル化するために、精度行列を重み関数に導入する。 GPの複雑さを低減するため,グループベースの学習戦略を提案する。
論文参考訳（メタデータ） (2024-10-11T15:12:30Z)
LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。 LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文参考訳（メタデータ） (2024-07-13T16:09:45Z)
FNOSeg3D: Resolution-Robust 3D Image Segmentation with Fourier Neural Operator [4.48473804240016]
フーリエニューラル演算子(FNO)に基づく画像解像度のトレーニングに頑健な3次元セグメンテーションモデルFNOSeg3Dを導入する。 BraTS'19データセットでテストすると、モデルパラメータの1%未満の他のテストモデルよりも、画像解像度のトレーニングに優れた堅牢性を達成した。
論文参考訳（メタデータ） (2023-10-05T19:58:36Z)
Variable Radiance Field for Real-World Category-Specific Reconstruction from Single Image [25.44715538841181]
単一画像からNeural Radiance Field(NeRF)を使用してカテゴリ固有のオブジェクトを再構成することは、有望だが挑戦的な作業である。本稿では,カテゴリ固有のオブジェクトを効率的に再構成できる新しいフレームワークである可変放射場(VRF)を提案する。 VRFは、再構築品質と計算効率の両方において最先端の性能を達成する。
論文参考訳（メタデータ） (2023-06-08T12:12:02Z)
Generative Multiplane Neural Radiance for 3D-Aware Image Generation [102.15322193381617]
本稿では,複数のターゲットビューに対して連続した3次元高解像度画像を効率よく生成する手法を提案する。我々のGMNRモデルは、単一のV100上で17.6FPSの1024×1024ピクセルの3D認識画像を生成する。
論文参考訳（メタデータ） (2023-04-03T17:41:20Z)
Super-Resolution Based Patch-Free 3D Image Segmentation with High-Frequency Guidance [20.86089285980103]
磁気共鳴画像(MRI)やCT(CT)などの医用画像など,近年,高分解能(HR)3D画像が広く利用されている。
論文参考訳（メタデータ） (2022-10-26T11:46:08Z)
Adaptive Fourier Neural Operators: Efficient Token Mixers for Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。 AFNOは、演算子学習の原則的基礎に基づいている。 65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文参考訳（メタデータ） (2021-11-24T05:44:31Z)
Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文参考訳（メタデータ） (2021-07-01T17:58:16Z)
Deep Learning for Regularization Prediction in Diffeomorphic Image Registration [8.781861951759948]
微分同相変換の滑らかさを制御するパラメータを自動的に決定する新しいフレームワークを導入する。画像登録の正規化パラメータとペア画像間のマッピングを学習する深層畳み込みニューラルネットワーク(CNN)に基づく予測モデルを開発した。実験結果から,本モデルは画像登録のための適切な正規化パラメータを予測できるだけでなく,時間とメモリ効率の面でネットワークトレーニングを改善することが示唆された。
論文参考訳（メタデータ） (2020-11-28T22:56:44Z)
PaMIR: Parametric Model-Conditioned Implicit Representation for Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-08T02:26:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。