論文の概要: Learning Multi-axis Representation in Frequency Domain for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2312.17030v2
- Date: Tue, 24 Sep 2024 12:46:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 05:28:28.257011
- Title: Learning Multi-axis Representation in Frequency Domain for Medical Image Segmentation
- Title(参考訳): 医用画像分割のための周波数領域における多軸表現の学習
- Authors: Jiacheng Ruan, Jingsheng Gao, Mingye Xie, Suncheng Xiang,
- Abstract要約: U字型アーキテクチャに基づくMEW-UNet(Multi-axis external Weights UNet)を提案する。
我々は,Synapse,ACDC,ISIC17,ISIC18の4つのデータセットでモデルを評価する。
- 参考スコア(独自算出の注目度): 5.6980032783048316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Visual Transformer (ViT) has been extensively used in medical image segmentation (MIS) due to applying self-attention mechanism in the spatial domain to modeling global knowledge. However, many studies have focused on improving models in the spatial domain while neglecting the importance of frequency domain information. Therefore, we propose Multi-axis External Weights UNet (MEW-UNet) based on the U-shape architecture by replacing self-attention in ViT with our Multi-axis External Weights block. Specifically, our block performs a Fourier transform on the three axes of the input features and assigns the external weight in the frequency domain, which is generated by our External Weights Generator. Then, an inverse Fourier transform is performed to change the features back to the spatial domain. We evaluate our model on four datasets, including Synapse, ACDC, ISIC17 and ISIC18 datasets, and our approach demonstrates competitive performance, owing to its effective utilization of frequency domain information.
- Abstract(参考訳): 近年,ビジュアルトランスフォーマー (ViT) は空間領域における自己認識機構をグローバルな知識のモデリングに応用するため,医療画像セグメンテーション (MIS) において広く利用されている。
しかし,周波数領域情報の重要性を無視しつつ,空間領域におけるモデルの改善に重点を置いている研究は多い。
そこで本稿では,VITにおける自己注意をマルチ軸外重みブロックに置き換えることで,U字型アーキテクチャに基づくマルチ軸外重みUNet(MEW-UNet)を提案する。
具体的には、入力特徴の3つの軸にフーリエ変換を行い、外部重み発生器によって生成される周波数領域の外部重みを割り当てる。
そして、逆フーリエ変換を行い、特徴を空間領域に戻す。
提案手法は,Synapse,ACDC,ISIC17,ISIC18の4つのデータセットで評価し,周波数領域情報の有効利用により,競合性能を示す。
関連論文リスト
- Neural Fourier Modelling: A Highly Compact Approach to Time-Series Analysis [9.969451740838418]
時系列解析のためのコンパクトで強力なソリューションであるニューラルフーリエモデリング(NFM)を導入する。
NFM はフーリエ変換 (FT) の2つの重要な性質 (i) 有限長時系列をフーリエ領域の関数としてモデル化する能力 (ii) フーリエ領域内のデータ操作の能力 (ii) に基礎を置いている。
NFMは幅広いタスクで最先端のパフォーマンスを達成しており、テスト時にこれまで見つからなかったサンプリングレートを持つ時系列シナリオに挑戦する。
論文 参考訳(メタデータ) (2024-10-07T02:39:55Z) - Frequency-Spatial Entanglement Learning for Camouflaged Object Detection [34.426297468968485]
既存の手法では、複雑な設計で空間的特徴の識別能力を最大化することにより、画素類似性の影響を減らそうとしている。
本稿では,周波数領域と空間領域の表現を共同で探索し,周波数空間の絡み合い学習(FSEL)手法を提案する。
我々の実験は、広く使われている3つのデータセットにおける包括的量的および質的比較を通じて、21以上の最先端手法によるFSELの優位性を実証した。
論文 参考訳(メタデータ) (2024-09-03T07:58:47Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models [89.76587063609806]
画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。
ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-27T06:53:16Z) - Dynamic Temporal Filtering in Video Models [128.02725199486719]
時間的特徴学習の新しいレシピである動的時間フィルタ(DTF)を提案する。
DTFは、その長距離時間ダイナミクスをモデル化するために、空間的位置ごとに特別な周波数フィルタを学習する。
DTFブロックをConvNetsとTransformerにプラグインすることで、DTF-NetとDTF-Transformerが得られる。
論文 参考訳(メタデータ) (2022-11-15T15:59:28Z) - MEW-UNet: Multi-axis representation learning in frequency domain for
medical image segmentation [13.456935850832565]
医療画像セグメンテーション(MIS)のためのU字型アーキテクチャに基づく多軸外部重み付きUNet(MEW-UNet)を提案する。
具体的には、入力特徴の3つの軸にフーリエ変換を行い、周波数領域の外部重みを割り当てる。
4つのデータセットでモデルを評価し、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-25T13:22:41Z) - Deep Fourier Up-Sampling [100.59885545206744]
フーリエ領域のアップサンプリングは、そのような局所的な性質に従わないため、より難しい。
これらの問題を解決するために理論的に健全なDeep Fourier Up-Sampling (FourierUp)を提案する。
論文 参考訳(メタデータ) (2022-10-11T06:17:31Z) - Fourier Disentangled Space-Time Attention for Aerial Video Recognition [54.80846279175762]
本稿では,UAVビデオ行動認識のためのFAR(Fourier Activity Recognition)アルゴリズムを提案する。
我々の定式化は、人間のエージェントを背景から自然に分離するために、新しいフーリエオブジェクト・ディコンタングルメント法を用いています。
我々はUAV Human RGB、UAV Human Night、Drone Action、NEC Droneを含む複数のUAVデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-03-21T01:24:53Z) - Multidomain Multimodal Fusion For Human Action Recognition Using
Inertial Sensors [1.52292571922932]
入力モダリティの異なる領域から相補的特徴と相補的特徴を抽出する新しいマルチドメイン多モード融合フレームワークを提案する。
異なる領域の特徴は畳み込みニューラルネットワーク(CNN)によって抽出され、続いてCCF(Canonical correlation based Fusion)によって融合され、人間の行動認識の精度が向上する。
論文 参考訳(メタデータ) (2020-08-22T03:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。