論文の概要: WaveFormer: A 3D Transformer with Wavelet-Driven Feature Representation for Efficient Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.23764v1
- Date: Mon, 31 Mar 2025 06:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.283408
- Title: WaveFormer: A 3D Transformer with Wavelet-Driven Feature Representation for Efficient Medical Image Segmentation
- Title(参考訳): WaveFormer: 効率的な医用画像分割のためのウェーブレット駆動型特徴表現付き3Dトランス
- Authors: Md Mahfuz Al Hasan, Mahdi Zaman, Abdul Jawad, Alberto Santamaria-Pang, Ho Hin Lee, Ivan Tarapov, Kyle See, Md Shah Imran, Antika Roy, Yaser Pourmohammadi Fallah, Navid Asadizanjani, Reza Forghani,
- Abstract要約: トランスフォーマーベースのアーキテクチャは、長距離依存を効果的にモデル化することで、高度な医用画像解析を行うが、しばしば3D設定で苦労する。
i) 人間の視覚認識システムのトップダウン機構にインスパイアされた特徴の基本的な周波数領域特性を活用できる新しい3DトランスフォーマーであるWaveFormerを用いて、これらのリミ・テイションに対処する。
WaveFormerは、重層を効率的なウェーブレットベースの要約と再構成に置き換えながら、グローバルコンテキストと高周波デサンプリングテールの両方を保存する。
- 参考スコア(独自算出の注目度): 0.5312470855079862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based architectures have advanced medical image analysis by effectively modeling long-range dependencies, yet they often struggle in 3D settings due to substantial memory overhead and insufficient capture of fine-grained local features. We address these limi- tations with WaveFormer, a novel 3D-transformer that: i) leverages the fundamental frequency-domain properties of features for contextual rep- resentation, and ii) is inspired by the top-down mechanism of the human visual recognition system, making it a biologically motivated architec- ture. By employing discrete wavelet transformations (DWT) at multiple scales, WaveFormer preserves both global context and high-frequency de- tails while replacing heavy upsampling layers with efficient wavelet-based summarization and reconstruction. This significantly reduces the number of parameters, which is critical for real-world deployment where compu- tational resources and training times are constrained. Furthermore, the model is generic and easily adaptable to diverse applications. Evaluations on BraTS2023, FLARE2021, and KiTS2023 demonstrate performance on par with state-of-the-art methods while offering substantially lower computational complexity.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは、長距離依存を効果的にモデル化することで、高度な医用画像解析を行うが、メモリオーバーヘッドが大きく、きめ細かい局所的特徴の取得が不十分なため、しばしば3D設定に苦しむ。
我々は、新しい3D変換器であるWaveFormerを使って、これらのLimi-tationsに対処する。
一 特徴の基本的な周波数領域特性を文脈的反感に利用し、及び
二 人間の視覚認識システムのトップダウン機構に触発され、生物学的に動機づけられた人工歯形となる。
複数のスケールで離散ウェーブレット変換(DWT)を利用することで、WaveFormerは、重いアップサンプリング層を効率的なウェーブレットベースの要約と再構成に置き換えつつ、グローバルコンテキストと高周波デテールの両方を保存する。
これによりパラメータの数が大幅に削減され、コンプ・テイションのリソースとトレーニング時間が制約される現実世界のデプロイメントにとって重要なものになります。
さらに、モデルは汎用的で、多様なアプリケーションに容易に適応できる。
BraTS2023, FLARE2021, KiTS2023の評価は、最先端の手法と同等の性能を示しながら、計算の複雑さを大幅に低減した。
関連論文リスト
- 3D Wavelet Convolutions with Extended Receptive Fields for Hyperspectral Image Classification [12.168520751389622]
ディープニューラルネットワークは、ハイパースペクトル画像分類において多くの課題に直面している。
本稿ではウェーブレット変換と統合された改良型3D-DenseNetモデルWCNetを提案する。
実験結果から,IN,UP,KSCデータセットにおいて優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:39:42Z) - Wavelet-Driven Masked Image Modeling: A Path to Efficient Visual Representation [27.576174611043367]
Masked Image Modeling (MIM)は、下流タスクに適したスケーラブルな視覚表現を学習する能力のおかげで、自己教師付き学習において大きな注目を集めている。
しかし、画像は本質的に冗長な情報を含んでいるため、画素ベースのMIM再構成プロセスはテクスチャなどの細部に過度に集中し、不要なトレーニング時間を延ばすことになる。
本研究では,MIMの学習過程を高速化するために,ウェーブレット変換を効率的な表現学習のツールとして活用する。
論文 参考訳(メタデータ) (2025-03-02T08:11:26Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - CWT-Net: Super-resolution of Histopathology Images Using a Cross-scale Wavelet-based Transformer [15.930878163092983]
超解像(SR)は低解像度画像の品質を高めることを目的としており、医用画像に広く応用されている。
我々は,画像ウェーブレット変換とトランスフォーマーアーキテクチャを利用した,CWT-Netと呼ばれる新しいネットワークを提案する。
本モデルは, 性能評価と可視化評価において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T08:26:28Z) - WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - Transformer variational wave functions for frustrated quantum spin
systems [0.0]
本稿では,ニューラルネットワーク状態の新たなクラスを定義するために,複雑なパラメータを持つViTアーキテクチャの適応を提案する。
ViT波動関数の成功は、局所演算と大域演算の混合に依存する。
論文 参考訳(メタデータ) (2022-11-10T11:56:44Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - aiWave: Volumetric Image Compression with 3-D Trained Affine
Wavelet-like Transform [43.984890290691695]
最も一般的なボリューム画像圧縮法はJP3Dのようなウェーブレット変換に基づいている。
本稿では,信号依存型および非分離型変換を実現するために,まず3次元トレーニングウェーブレット様変換を設計する。
次に、アフィンウェーブレットベースを導入し、ボリューム画像の異なる領域における様々な局所的相関をキャプチャする。
論文 参考訳(メタデータ) (2022-03-11T10:02:01Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。