論文の概要: From Attention to Frequency: Integration of Vision Transformer and FFT-ReLU for Enhanced Image Deblurring
- arxiv url: http://arxiv.org/abs/2511.10806v1
- Date: Thu, 13 Nov 2025 21:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.332331
- Title: From Attention to Frequency: Integration of Vision Transformer and FFT-ReLU for Enhanced Image Deblurring
- Title(参考訳): 注意から周波数へ:高精細化のためのビジョントランスとFFT-ReLUの統合
- Authors: Syed Mumtahin Mahmud, Mahdi Mohd Hossain Noki, Prothito Shovon Majumder, Abdul Mohaimen Al Radi, Md. Haider Ali, Md. Mosaddek Khan,
- Abstract要約: 本稿では、周波数領域FFT-ReLUモジュールで視覚変換器を統一する新しいデュアルドメインアーキテクチャを提案する。
この構造では、ViTバックボーンはローカルおよびグローバルな依存関係をキャプチャし、FFT-ReLUコンポーネントは、ブラー関連アーティファクトを抑えるために周波数領域の間隔を強制する。
ベンチマークデータセットの実験により、このアーキテクチャは最先端のモデルと比較してPSNR、SSIM、知覚品質が優れていることが示された。
- 参考スコア(独自算出の注目度): 0.9728664856449597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image deblurring is vital in computer vision, aiming to recover sharp images from blurry ones caused by motion or camera shake. While deep learning approaches such as CNNs and Vision Transformers (ViTs) have advanced this field, they often struggle with complex or high-resolution blur and computational demands. We propose a new dual-domain architecture that unifies Vision Transformers with a frequency-domain FFT-ReLU module, explicitly bridging spatial attention modeling and frequency sparsity. In this structure, the ViT backbone captures local and global dependencies, while the FFT-ReLU component enforces frequency-domain sparsity to suppress blur-related artifacts and preserve fine details. Extensive experiments on benchmark datasets demonstrate that this architecture achieves superior PSNR, SSIM, and perceptual quality compared to state-of-the-art models. Both quantitative metrics, qualitative comparisons, and human preference evaluations confirm its effectiveness, establishing a practical and generalizable paradigm for real-world image restoration.
- Abstract(参考訳): 画像の劣化はコンピュータビジョンにおいて不可欠であり、動きやカメラの揺れによって引き起こされるぼやけた画像から鋭い画像を復元することを目的としている。
CNNやViT(Vision Transformers)のようなディープラーニングアプローチはこの分野を前進させてきたが、複雑な、あるいは高解像度のぼかしや計算要求に悩まされることが多い。
本稿では、視覚変換器を周波数領域のFFT-ReLUモジュールと統合し、空間的アテンションモデリングと周波数間隔を明示的にブリッジする新しいデュアルドメインアーキテクチャを提案する。
この構造では、ViTバックボーンは、ローカルおよびグローバルな依存関係をキャプチャし、FFT-ReLUコンポーネントは、ブラー関連アーティファクトの抑制と詳細の保存のために周波数領域の間隔を強制する。
ベンチマークデータセットの大規模な実験により、このアーキテクチャは最先端のモデルと比較してPSNR、SSIM、知覚品質が優れていることが示された。
定量的メトリクス、質的比較、および人間の嗜好評価は、その有効性を確認し、現実のイメージ復元のための実用的で一般化可能なパラダイムを確立した。
関連論文リスト
- Frequency-Domain Fusion Transformer for Image Inpainting [6.4194162137514725]
本稿では,周波数領域融合を取り入れたトランスフォーマーによる画像描画手法を提案する。
実験により,提案手法は高周波数情報を保存することにより,画像の塗装品質を効果的に向上することを示した。
論文 参考訳(メタデータ) (2025-06-23T09:19:04Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - Frequency-Aware Vision Transformers for High-Fidelity Super-Resolution of Earth System Models [0.0]
超解像法はスペクトルバイアスを示し、貴重な高周波の詳細よりも容易に低周波コンテンツを再構成する。
本稿では、ViSIR(Vision Transformer-Tuned Sinusoidal Implicit Representation)とViFOR(Vi Vision Transformer Fourier Representation Network)の2つの周波数対応フレームワークを紹介する。
その結果、ViFORは、気候データダウンスケーリングのための最先端でスケーラブルなソリューションとして確立された。
論文 参考訳(メタデータ) (2025-02-18T01:52:41Z) - Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Training Transformer Models by Wavelet Losses Improves Quantitative and Visual Performance in Single Image Super-Resolution [6.367865391518726]
トランスフォーマーベースモデルは、画像超解像(SR)を含む低レベル視覚タスクにおいて顕著な結果を得た
グローバルにより多くの入力ピクセルを活性化するために、ハイブリッドアテンションモデルが提案されている。
ウェーブレット損失を利用してTransformerモデルをトレーニングし、定量的および主観的性能を向上させる。
論文 参考訳(メタデータ) (2024-04-17T11:25:19Z) - Holistic Dynamic Frequency Transformer for Image Fusion and Exposure Correction [18.014481087171657]
露出関連問題の修正は、画像の品質向上における重要な要素である。
本稿では、周波数領域を利用して露出補正タスクの処理を改善し、統一する新しい手法を提案する。
提案手法は, 露光補正においてより高度で統一された解を実現する方法である。
論文 参考訳(メタデータ) (2023-09-03T14:09:14Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Blur Interpolation Transformer for Real-World Motion from Blur [52.10523711510876]
本稿では, ボケの時間的相関を解き明かすために, 符号化されたブラー変換器(BiT)を提案する。
マルチスケール残留スウィン変圧器ブロックに基づいて、両端の時間的監督と時間対称なアンサンブル戦略を導入する。
さらに,1対1のぼやけたビデオペアの最初の実世界のデータセットを収集するハイブリッドカメラシステムを設計する。
論文 参考訳(メタデータ) (2022-11-21T13:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。