論文の概要: Content-Aware Transformer for All-in-one Image Restoration
- arxiv url: http://arxiv.org/abs/2504.04869v1
- Date: Mon, 07 Apr 2025 09:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:06.521378
- Title: Content-Aware Transformer for All-in-one Image Restoration
- Title(参考訳): オールインワン画像復元のためのコンテンツ認識変換器
- Authors: Gang Wu, Junjun Jiang, Kui Jiang, Xianming Liu,
- Abstract要約: 画像復元のための変形可能なスライディングウィンドウトランスであるDSwinIRを提案する。
本稿では,画像の内容に基づいて受容場を適応的に調整する,変形可能なウィンドウ自己アテンションを提案する。
提案したDSwinIRモデルは、変形可能なスライドウインドウ変換器と中央アンサンブルパターンを統合し、CNNと変換器の強度を増幅する。
- 参考スコア(独自算出の注目度): 72.35265021054471
- License:
- Abstract: Image restoration has witnessed significant advancements with the development of deep learning models. Although Transformer architectures have progressed considerably in recent years, challenges remain, particularly the limited receptive field in window-based self-attention. In this work, we propose DSwinIR, a Deformable Sliding window Transformer for Image Restoration. DSwinIR introduces a novel deformable sliding window self-attention that adaptively adjusts receptive fields based on image content, enabling the attention mechanism to focus on important regions and enhance feature extraction aligned with salient features. Additionally, we introduce a central ensemble pattern to reduce the inclusion of irrelevant content within attention windows. In this way, the proposed DSwinIR model integrates the deformable sliding window Transformer and central ensemble pattern to amplify the strengths of both CNNs and Transformers while mitigating their limitations. Extensive experiments on various image restoration tasks demonstrate that DSwinIR achieves state-of-the-art performance. For example, in image deraining, compared to DRSformer on the SPA dataset, DSwinIR achieves a 0.66 dB PSNR improvement. In all-in-one image restoration, compared to PromptIR, DSwinIR achieves over a 0.66 dB and 1.04 dB improvement on three-task and five-task settings, respectively. Pretrained models and code are available at our project https://github.com/Aitical/DSwinIR.
- Abstract(参考訳): 画像復元は深層学習モデルの開発において大きな進歩をみせた。
トランスフォーマーアーキテクチャは近年大きく進歩しているが、特にウィンドウベースの自己認識における限定的な受容領域において、課題が残っている。
本研究では,画像復元のための変形可能なスライディングウィンドウトランスであるDSwinIRを提案する。
DSwinIRは、画像の内容に基づいて受容野を適応的に調整し、注意機構が重要な領域に集中し、有能な特徴に整合した特徴抽出を向上する、新規な変形可能なスライドウインドウ・セルフアテンションを導入している。
さらに、注意窓に無関係なコンテンツを含めることを減らすために、中央アンサンブルパターンを導入する。
このようにして、DSwinIRモデルは、変形可能なスライディングウインドウ変換器と中央アンサンブルパターンを統合し、その制限を緩和しつつ、CNNとトランスフォーマーの強度を増幅する。
様々な画像復元タスクに関する大規模な実験は、DSwinIRが最先端のパフォーマンスを達成することを示す。
例えば、画像デライニングでは、SPAデータセットのDSRformerと比較して、DSwinIRは0.66dBPSNRの改善を実現している。
オールインワン画像復元では、PromptIRと比較して、DSwinIRは3タスク設定と5タスク設定でそれぞれ0.66dBと1.04dBの改善を達成している。
事前トレーニングされたモデルとコードは、プロジェクトのhttps://github.com/Aitical/DSwinIRで利用可能です。
関連論文リスト
- UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior [56.35236964617809]
画像復元は、悪天候、ぼやけ、騒音などの様々な要因によって劣化した入力からコンテンツを回復することを目的としている。
本稿では,PIRとTIRのギャップを埋める統一画像復元モデルUniRestoreを紹介する。
本稿では,分解エンコーダの特徴を再構築するための補足的特徴回復モジュール (CFRM) と,デコーダの適応的特徴融合を容易にするタスク特徴適応モジュール (TFA) を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:06:48Z) - Joint multi-dimensional dynamic attention and transformer for general image restoration [14.987034136856463]
屋外のイメージは 雨や迷路、騒音などによって 深刻な劣化に苦しむことが多い
現在の画像復元法は、効率を保ちながら複雑な劣化を扱うのに苦労している。
本稿では,多次元動的注意と自己注意を組み合わせた新しい画像復元アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:58:09Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - CFAT: Unleashing TriangularWindows for Image Super-resolution [5.130320840059732]
トランスフォーマーモデルが画像超解像(SR)の分野に革命をもたらした
境界レベルの歪みを軽減するために,矩形ウィンドウと同期して動作する非重なりの三角形ウィンドウ手法を提案する。
提案モデルでは,他の最先端SRアーキテクチャに比べて0.7dB性能が向上した。
論文 参考訳(メタデータ) (2024-03-24T13:31:31Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。