論文の概要: DSwinIR: Rethinking Window-based Attention for Image Restoration
- arxiv url: http://arxiv.org/abs/2504.04869v2
- Date: Sun, 27 Jul 2025 07:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.060208
- Title: DSwinIR: Rethinking Window-based Attention for Image Restoration
- Title(参考訳): DSwinIR:画像復元のためのウィンドウベースの注意を再考
- Authors: Gang Wu, Junjun Jiang, Kui Jiang, Xianming Liu, Liqiang Nie,
- Abstract要約: 画像復元のための基盤となるバックボーンアーキテクチャとしてデフォルマブルスライディングウィンドウ変換器(DSwinIR)を提案する。
DSwinIRの中心には、Deformable Sliding Window (DSwin) Attentionという小説がある。
大規模な実験により、DSwinIRは幅広い画像復元タスクに新しい最先端の技術を設定できることがわかった。
- 参考スコア(独自算出の注目度): 109.38288333994407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image restoration has witnessed significant advancements with the development of deep learning models. Especially Transformer-based models, particularly those leveraging window-based self-attention, have become a dominant force in image restoration. However, their performance is fundamentally constrained by the rigid, non-overlapping window partitioning scheme, which leads to two critical limitations: insufficient feature interaction across window boundaries and content-agnostic receptive fields that cannot adapt to diverse image structures. Existing methods often rely on heuristic patterns to mitigate these issues, rather than addressing the root cause. In this paper, we propose the Deformable Sliding Window Transformer (DSwinIR), a new foundational backbone architecture that systematically overcomes these limitations. At the heart of DSwinIR is the proposed novel Deformable Sliding Window (DSwin) Attention. This mechanism introduces two fundamental innovations. First, it replaces the rigid partitioning with a token-centric sliding window paradigm, ensuring seamless cross-window information flow and effectively eliminating boundary artifacts. Second, it incorporates a content-aware deformable sampling strategy, which allows the attention mechanism to learn data-dependent offsets and dynamically shape its receptive fields to focus on the most informative image regions. This synthesis endows the model with both strong locality-aware inductive biases and powerful, adaptive long-range modeling capabilities. Extensive experiments show that DSwinIR sets a new state-of-the-art across a wide spectrum of image restoration tasks. For instance, in all-in-one restoration, our DSwinIR surpasses the most recent backbone GridFormer by over 0.53 dB on the three-task benchmark and a remarkable 0.86 dB on the five-task benchmark.
- Abstract(参考訳): 画像復元は深層学習モデルの開発において大きな進歩をみせた。
特に、トランスフォーマーベースのモデル、特にウィンドウベースの自己注意を活用するモデルは、画像復元において支配的な役割を担っている。
しかし、それらの性能は、厳密で重複しないウィンドウ分割方式によって根本的な制約を受けており、ウィンドウ境界を越えた機能相互作用が不十分なことと、多様な画像構造に適応できないコンテンツ非依存の受容場という2つの重要な制限が生じる。
既存の手法は根本原因に対処するのではなく、これらの問題を緩和するためにヒューリスティックなパターンに依存することが多い。
本稿では,これらの制約を体系的に克服する新しいバックボーンアーキテクチャであるDeformable Sliding Window Transformer (DSwinIR)を提案する。
DSwinIRの中心には、Deformable Sliding Window (DSwin) Attentionという小説がある。
このメカニズムは2つの基本的な革新をもたらす。
まず、厳密なパーティショニングをトークン中心のスライディングウインドウパラダイムに置き換え、シームレスなクロスウィンドウ情報フローを確保し、バウンダリアーティファクトを効果的に排除する。
第二に、コンテンツ対応の変形可能なサンプリング戦略を導入し、注意機構がデータ依存のオフセットを学習し、その受容領域を動的に形作り、最も情報に富んだ画像領域に集中できるようにする。
この合成は、強い局所性を考慮した帰納バイアスと強力で適応的な長距離モデリング機能の両方でモデルを実現する。
大規模な実験により、DSwinIRは幅広い画像復元タスクに新しい最先端の技術を設定できることがわかった。
例えばオールインワンの復元では、DSwinIRは3タスクベンチマークで0.53dB、5タスクベンチマークで0.86dBを超えています。
関連論文リスト
- UnfoldIR: Rethinking Deep Unfolding Network in Illumination Degradation Image Restoration [33.290565892897824]
DUN(Deep Openfolding Network)は、照明劣化画像復元(IDIR)に広く利用されている。
IDIRタスクのための新しいDUNベースのUnfoldIRを提案する。
反射率支援照明補正(RAIC)モジュールと照明誘導反射率向上(IGRE)モジュールから構成される。
論文 参考訳(メタデータ) (2025-05-10T16:13:01Z) - UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior [56.35236964617809]
画像復元は、悪天候、ぼやけ、騒音などの様々な要因によって劣化した入力からコンテンツを回復することを目的としている。
本稿では,PIRとTIRのギャップを埋める統一画像復元モデルUniRestoreを紹介する。
本稿では,分解エンコーダの特徴を再構築するための補足的特徴回復モジュール (CFRM) と,デコーダの適応的特徴融合を容易にするタスク特徴適応モジュール (TFA) を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:06:48Z) - Joint multi-dimensional dynamic attention and transformer for general image restoration [14.987034136856463]
屋外のイメージは 雨や迷路、騒音などによって 深刻な劣化に苦しむことが多い
現在の画像復元法は、効率を保ちながら複雑な劣化を扱うのに苦労している。
本稿では,多次元動的注意と自己注意を組み合わせた新しい画像復元アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:58:09Z) - ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - CFAT: Unleashing TriangularWindows for Image Super-resolution [5.130320840059732]
トランスフォーマーモデルが画像超解像(SR)の分野に革命をもたらした
境界レベルの歪みを軽減するために,矩形ウィンドウと同期して動作する非重なりの三角形ウィンドウ手法を提案する。
提案モデルでは,他の最先端SRアーキテクチャに比べて0.7dB性能が向上した。
論文 参考訳(メタデータ) (2024-03-24T13:31:31Z) - How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。
本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。
我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文 参考訳(メタデータ) (2024-03-15T14:23:12Z) - Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。
まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior [70.46245698746874]
DiffBIRは、視覚の異なる画像復元タスクを処理できる一般的な修復パイプラインである。
DiffBIRは, ブラインド画像復元問題を, 1) 劣化除去: 画像に依存しない内容の除去; 2) 情報再生: 失われた画像内容の生成の2段階に分離する。
第1段階では, 修復モジュールを用いて劣化を除去し, 高忠実度復元結果を得る。
第2段階では、潜伏拡散モデルの生成能力を活用して現実的な詳細を生成するIRControlNetを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:11:52Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。