論文の概要: LoFormer: Local Frequency Transformer for Image Deblurring
- arxiv url: http://arxiv.org/abs/2407.16993v1
- Date: Wed, 24 Jul 2024 04:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:43:30.675655
- Title: LoFormer: Local Frequency Transformer for Image Deblurring
- Title(参考訳): LoFormer: 画像劣化のためのローカル周波数変換器
- Authors: Xintian Mao, Jiansheng Wang, Xingran Xie, Qingli Li, Yan Wang,
- Abstract要約: 局所周波数変換器(LoFormer)と呼ばれる新しい手法を導入する。
LoFormerの各ユニットに、周波数領域(Freq-LC)にローカルチャネル対応SAを組み込み、低周波および高周波のローカルウィンドウ内の相互共分散を同時にキャプチャする。
実験の結果,126G FLOPsのGoProデータセット上でPSNR34.09dBを達成することにより,LoFormerは画像劣化タスクの性能を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 12.032239441930306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the computational complexity of self-attention (SA), prevalent techniques for image deblurring often resort to either adopting localized SA or employing coarse-grained global SA methods, both of which exhibit drawbacks such as compromising global modeling or lacking fine-grained correlation. In order to address this issue by effectively modeling long-range dependencies without sacrificing fine-grained details, we introduce a novel approach termed Local Frequency Transformer (LoFormer). Within each unit of LoFormer, we incorporate a Local Channel-wise SA in the frequency domain (Freq-LC) to simultaneously capture cross-covariance within low- and high-frequency local windows. These operations offer the advantage of (1) ensuring equitable learning opportunities for both coarse-grained structures and fine-grained details, and (2) exploring a broader range of representational properties compared to coarse-grained global SA methods. Additionally, we introduce an MLP Gating mechanism complementary to Freq-LC, which serves to filter out irrelevant features while enhancing global learning capabilities. Our experiments demonstrate that LoFormer significantly improves performance in the image deblurring task, achieving a PSNR of 34.09 dB on the GoPro dataset with 126G FLOPs. https://github.com/DeepMed-Lab-ECNU/Single-Image-Deblur
- Abstract(参考訳): 自己注意(SA)の計算複雑性のため、画像劣化の一般的な技術は、局所的なSAを採用するか、大まかに大まかなSA手法を採用するかのいずれかを利用することが多い。
細かな細部を犠牲にすることなく、長距離依存関係を効果的にモデル化し、この問題に対処するために、LoFormerと呼ばれる新しいアプローチを導入する。
LoFormerの各ユニットに、周波数領域(Freq-LC)にローカルチャネル対応SAを組み込み、低周波および高周波のローカルウィンドウ内の相互共分散を同時にキャプチャする。
これらの操作は,(1)粗粒度構造と細粒度微細度の両方に対して適切な学習機会を確保すること,(2)粗粒度グローバルSA法と比較して幅広い表現特性を探索することの利点を提供する。
さらに,Freq-LCを補完するMPP Gating機構を導入し,グローバルな学習能力を高めつつ,無関係な特徴をフィルタリングする。
実験の結果,126G FLOPsのGoProデータセット上でPSNR34.09dBを達成することにより,LoFormerは画像劣化タスクの性能を著しく向上することが示された。
https://github.com/DeepMed-Lab-ECNU/Single-Image-Deblur
関連論文リスト
- LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement [51.557804095896174]
AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。
実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Learning Enriched Features via Selective State Spaces Model for Efficient Image Deblurring [0.0]
Image Deblurringは、高品質な画像を、それに対応するぼやけた画像から復元することを目的としている。
本稿では、選択状態空間モデルを利用して、リッチで正確な特徴を集約する効率的な画像デブロアリングネットワークを提案する。
実験により,提案手法は広く用いられているベンチマークにおいて,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-29T10:40:41Z) - Optimal Transport Aggregation for Visual Place Recognition [9.192660643226372]
SALADは,NetVLADの局所的特徴のソフトアサインを最適な輸送問題としてクラスタに再配置する。
SALADでは,機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮するとともに,非形式的と考えられる特徴を選択的に破棄する'ダストビン'クラスタも導入する。
我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、2段階の手法を超越し、コストを大幅に高めに再ランク付けする。
論文 参考訳(メタデータ) (2023-11-27T15:46:19Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Spatial-Frequency Attention for Image Denoising [22.993509525990998]
本研究では,長距離依存性を利用した空間周波数アテンションネットワーク(SFANet)を提案する。
複数のdenoisingベンチマークの実験は、SFANetネットワークのリードパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-02-27T09:07:15Z) - SuperGF: Unifying Local and Global Features for Visual Localization [13.869227429939423]
SuperGFは、画像マッチング固有のローカル機能を直接操作するトランスフォーマーベースの集約モデルである。
我々は,高密度でスパースな学習ベースや手作りの記述子など,様々なローカル特徴を用いたSuperGFの実装を提供する。
論文 参考訳(メタデータ) (2022-12-23T13:48:07Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Frequency Consistent Adaptation for Real World Super Resolution [64.91914552787668]
実シーンにスーパーリゾリューション(SR)法を適用する際に周波数領域の整合性を保証する新しい周波数一貫性適応(FCA)を提案する。
監視されていない画像から劣化カーネルを推定し、対応するLow-Resolution (LR)画像を生成する。
ドメイン一貫性のあるLR-HRペアに基づいて、容易に実装可能な畳み込みニューラルネットワーク(CNN)SRモデルを訓練する。
論文 参考訳(メタデータ) (2020-12-18T08:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。