論文の概要: WaveFormer: A 3D Transformer with Wavelet-Driven Feature Representation for Efficient Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.23764v2
- Date: Tue, 01 Apr 2025 02:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-02 10:23:43.596521
- Title: WaveFormer: A 3D Transformer with Wavelet-Driven Feature Representation for Efficient Medical Image Segmentation
- Title(参考訳): WaveFormer: 効率的な医用画像分割のためのウェーブレット駆動型特徴表現付き3Dトランス
- Authors: Md Mahfuz Al Hasan, Mahdi Zaman, Abdul Jawad, Alberto Santamaria-Pang, Ho Hin Lee, Ivan Tarapov, Kyle See, Md Shah Imran, Antika Roy, Yaser Pourmohammadi Fallah, Navid Asadizanjani, Reza Forghani,
- Abstract要約: 医用画像用3D変換器のWaveFormerについて紹介する。
それは人間の視覚認識システムのトップダウンメカニズムにインスパイアされている。
グローバルコンテキストと高周波の詳細の両方を保存し、重いサンプリング層を効率的なウェーブレットベースの要約と再構成に置き換える。
- 参考スコア(独自算出の注目度): 0.5312470855079862
- License:
- Abstract: Transformer-based architectures have advanced medical image analysis by effectively modeling long-range dependencies, yet they often struggle in 3D settings due to substantial memory overhead and insufficient capture of fine-grained local features. We address these limitations with WaveFormer, a novel 3D-transformer that: i) leverages the fundamental frequency-domain properties of features for contextual representation, and ii) is inspired by the top-down mechanism of the human visual recognition system, making it a biologically motivated architecture. By employing discrete wavelet transformations (DWT) at multiple scales, WaveFormer preserves both global context and high-frequency details while replacing heavy upsampling layers with efficient wavelet-based summarization and reconstruction. This significantly reduces the number of parameters, which is critical for real-world deployment where computational resources and training times are constrained. Furthermore, the model is generic and easily adaptable to diverse applications. Evaluations on BraTS2023, FLARE2021, and KiTS2023 demonstrate performance on par with state-of-the-art methods while offering substantially lower computational complexity.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは、長距離依存を効果的にモデル化することで、高度な医用画像解析を行うが、メモリオーバーヘッドが大きく、きめ細かい局所的特徴の取得が不十分なため、しばしば3D設定に苦しむ。
この制限に対処するため、WaveFormerという新しい3D変換ツールを使います。
一 特徴の基本的な周波数領域特性を文脈表現に利用し、
二 人間の視覚認識システムのトップダウン機構に触発され、生物学的に動機付けられた建築である。
複数のスケールで離散ウェーブレット変換(DWT)を採用することで、WaveFormerは、重いアップサンプリング層を効率的なウェーブレットベースの要約と再構成に置き換えつつ、グローバルコンテキストと高周波の詳細の両方を保存できる。
これは、計算リソースとトレーニング時間が制約される現実世界のデプロイメントにおいて重要なパラメータの数を大幅に削減する。
さらに、モデルは汎用的で、多様なアプリケーションに容易に適応できる。
BraTS2023, FLARE2021, KiTS2023の評価は、最先端の手法と同等の性能を示しながら、計算の複雑さを大幅に低減した。
関連論文リスト
- CWT-Net: Super-resolution of Histopathology Images Using a Cross-scale Wavelet-based Transformer [15.930878163092983]
超解像(SR)は低解像度画像の品質を高めることを目的としており、医用画像に広く応用されている。
我々は,画像ウェーブレット変換とトランスフォーマーアーキテクチャを利用した,CWT-Netと呼ばれる新しいネットワークを提案する。
本モデルは, 性能評価と可視化評価において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T08:26:28Z) - WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Graph and Skipped Transformer: Exploiting Spatial and Temporal Modeling Capacities for Efficient 3D Human Pose Estimation [36.93661496405653]
我々は、簡潔なグラフとSkipped Transformerアーキテクチャを用いて、Transformer-temporal情報を活用するためのグローバルなアプローチを採っている。
具体的には、3Dポーズの段階では、粗粒の体部が展開され、完全なデータ駆動適応モデルが構築される。
実験はHuman3.6M、MPI-INF-3DHP、Human-Evaベンチマークで行われた。
論文 参考訳(メタデータ) (2024-07-03T10:42:09Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - Transformer variational wave functions for frustrated quantum spin
systems [0.0]
本稿では,ニューラルネットワーク状態の新たなクラスを定義するために,複雑なパラメータを持つViTアーキテクチャの適応を提案する。
ViT波動関数の成功は、局所演算と大域演算の混合に依存する。
論文 参考訳(メタデータ) (2022-11-10T11:56:44Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - aiWave: Volumetric Image Compression with 3-D Trained Affine
Wavelet-like Transform [43.984890290691695]
最も一般的なボリューム画像圧縮法はJP3Dのようなウェーブレット変換に基づいている。
本稿では,信号依存型および非分離型変換を実現するために,まず3次元トレーニングウェーブレット様変換を設計する。
次に、アフィンウェーブレットベースを導入し、ボリューム画像の異なる領域における様々な局所的相関をキャプチャする。
論文 参考訳(メタデータ) (2022-03-11T10:02:01Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。