論文の概要: Boosting ViT-based MRI Reconstruction from the Perspectives of Frequency Modulation, Spatial Purification, and Scale Diversification
- arxiv url: http://arxiv.org/abs/2412.10776v1
- Date: Sat, 14 Dec 2024 10:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:59:34.316075
- Title: Boosting ViT-based MRI Reconstruction from the Perspectives of Frequency Modulation, Spatial Purification, and Scale Diversification
- Title(参考訳): 周波数変調, 空間浄化, スケール多様化からみたVTを用いたMRI画像再構成
- Authors: Yucong Meng, Zhiwei Yang, Yonghong Shi, Zhijian Song,
- Abstract要約: ViTは、画像の高周波成分を捉えるのに苦労し、局所的なテクスチャやエッジ情報を検出する能力を制限する。
コンテンツ中の関連トークンと非関連トークンのうち、MSA(Multi-head self-attention)を計算する。
ViTsのフィードフォワードネットワークは、画像復元に重要なマルチスケール情報をモデル化することができない。
- 参考スコア(独自算出の注目度): 6.341065683872316
- License:
- Abstract: The accelerated MRI reconstruction process presents a challenging ill-posed inverse problem due to the extensive under-sampling in k-space. Recently, Vision Transformers (ViTs) have become the mainstream for this task, demonstrating substantial performance improvements. However, there are still three significant issues remain unaddressed: (1) ViTs struggle to capture high-frequency components of images, limiting their ability to detect local textures and edge information, thereby impeding MRI restoration; (2) Previous methods calculate multi-head self-attention (MSA) among both related and unrelated tokens in content, introducing noise and significantly increasing computational burden; (3) The naive feed-forward network in ViTs cannot model the multi-scale information that is important for image restoration. In this paper, we propose FPS-Former, a powerful ViT-based framework, to address these issues from the perspectives of frequency modulation, spatial purification, and scale diversification. Specifically, for issue (1), we introduce a frequency modulation attention module to enhance the self-attention map by adaptively re-calibrating the frequency information in a Laplacian pyramid. For issue (2), we customize a spatial purification attention module to capture interactions among closely related tokens, thereby reducing redundant or irrelevant feature representations. For issue (3), we propose an efficient feed-forward network based on a hybrid-scale fusion strategy. Comprehensive experiments conducted on three public datasets show that our FPS-Former outperforms state-of-the-art methods while requiring lower computational costs.
- Abstract(参考訳): 高速MRI再建法では,k空間のアンダーサンプリングにより,不適切な逆問題が発生する。
近年、ViT(Vision Transformers)がこのタスクの主流となり、大幅なパフォーマンス向上が証明されている。
しかし, 画像の高頻度成分の捕捉に苦慮し, 局所的なテクスチャやエッジ情報の検出能力の制限, MRIの回復を妨げること, 2) 関連性および非関連性の両方のトークンのマルチヘッド自己注意(MSA)を計算し, ノイズを発生させ, 計算負担を著しく増大させること, (3) 画像復元に重要なマルチスケール情報をモデル化できないこと, の3つの大きな問題が残っている。
本稿では、周波数変調、空間浄化、スケール多様化の観点から、これらの問題に対処する強力なViTベースのフレームワークであるFPS-Formerを提案する。
特に,第1号では,ラプラシアピラミッド内の周波数情報を適応的に補正することで自己注意マップを強化するための周波数変調アテンションモジュールを導入する。
課題(2)では,空間浄化アテンションモジュールをカスタマイズして,関連するトークン間のインタラクションをキャプチャし,冗長な特徴表現や無関係な特徴表現を減らす。
課題(3)として,ハイブリッドスケールの融合戦略に基づく効率的なフィードフォワードネットワークを提案する。
3つの公開データセットで実施された総合的な実験により、我々のFPS-Formerは計算コストを抑えながら最先端の手法より優れていることが示された。
関連論文リスト
- Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Frequency-Adaptive Pan-Sharpening with Mixture of Experts [22.28680499480492]
パンシャーピングのための新しい周波数適応型エキスパート混合学習フレームワーク(FAME)を提案する。
本手法は他の最先端技術に対して最善を尽くし,現実のシーンに対して強力な一般化能力を有する。
論文 参考訳(メタデータ) (2024-01-04T08:58:25Z) - Frequency Domain Modality-invariant Feature Learning for
Visible-infrared Person Re-Identification [79.9402521412239]
本稿では、周波数領域から見たモダリティの相違を低減するために、新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。
我々のフレームワークでは、インスタンス適応振幅フィルタ(IAF)とPhrase-Preserving Normalization(PPNorm)という、2つの新しいモジュールを導入している。
論文 参考訳(メタデータ) (2024-01-03T17:11:27Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - CAMP-Net: Consistency-Aware Multi-Prior Network for Accelerated MRI
Reconstruction [4.967600587813224]
k空間データをMRIでアンサンプすることでスキャン時間が短縮されるが、画像再構成において課題が生じる。
CAMP-Net は,MRI の高速化のためのアンロール型 Consistency-Aware Multi-Prior Network を提案する。
論文 参考訳(メタデータ) (2023-06-20T02:21:45Z) - GA-HQS: MRI reconstruction via a generically accelerated unfolding
approach [14.988694941405575]
画素レベルでの入力の微妙な融合のための2階勾配情報とピラミッドアテンションモジュールを組み込んだGA-HQSアルゴリズムを提案する。
本手法は, 単コイルMRI加速度タスクにおいて, 従来よりも優れている。
論文 参考訳(メタデータ) (2023-04-06T06:21:18Z) - Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。
トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。
i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文 参考訳(メタデータ) (2021-06-27T15:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。