論文の概要: DiNAT-IR: Exploring Dilated Neighborhood Attention for High-Quality Image Restoration
- arxiv url: http://arxiv.org/abs/2507.17892v1
- Date: Wed, 23 Jul 2025 19:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.514184
- Title: DiNAT-IR: Exploring Dilated Neighborhood Attention for High-Quality Image Restoration
- Title(参考訳): DiNAT-IR:高画質画像復元のための拡張近傍注意の探索
- Authors: Hanzhou Liu, Binghan Li, Chengkai Liu, Mi Lu,
- Abstract要約: 我々はトランスフォーマーに代わる有望な代替手段としてDilated Neighborhood Attention (DiNA)を導入した。
DiNAは、スライディングウインドウの注意と混合拡散係数を組み合わせることで、グローバルコンテキストと局所精度のバランスをとる。
我々は,局所的な注意を補完するチャネル認識モジュールを導入し,画素レベルの精度を犠牲にすることなく,グローバルなコンテキストを効果的に統合する。
- 参考スコア(独自算出の注目度): 1.5124439914522694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers, with their self-attention mechanisms for modeling long-range dependencies, have become a dominant paradigm in image restoration tasks. However, the high computational cost of self-attention limits scalability to high-resolution images, making efficiency-quality trade-offs a key research focus. To address this, Restormer employs channel-wise self-attention, which computes attention across channels instead of spatial dimensions. While effective, this approach may overlook localized artifacts that are crucial for high-quality image restoration. To bridge this gap, we explore Dilated Neighborhood Attention (DiNA) as a promising alternative, inspired by its success in high-level vision tasks. DiNA balances global context and local precision by integrating sliding-window attention with mixed dilation factors, effectively expanding the receptive field without excessive overhead. However, our preliminary experiments indicate that directly applying this global-local design to the classic deblurring task hinders accurate visual restoration, primarily due to the constrained global context understanding within local attention. To address this, we introduce a channel-aware module that complements local attention, effectively integrating global context without sacrificing pixel-level precision. The proposed DiNAT-IR, a Transformer-based architecture specifically designed for image restoration, achieves competitive results across multiple benchmarks, offering a high-quality solution for diverse low-level computer vision problems.
- Abstract(参考訳): トランスフォーマーは、長距離依存をモデリングするための自己注意機構を持ち、画像復元タスクにおいて支配的なパラダイムとなっている。
しかし、自己注意の計算コストが高いため、高解像度画像へのスケーラビリティが制限され、効率の良質なトレードオフが重要な研究課題となっている。
これを解決するために、Restormerはチャンネルワイドの自己注意を採用し、空間次元ではなくチャネル間の注意を計算している。
このアプローチは効果はあるものの、高品質な画像復元に欠かせない局所的なアーティファクトを見落としてしまう可能性がある。
このギャップを埋めるために、高レベルの視覚タスクの成功に触発されて、Dilated Neighborhood Attention (DiNA) を有望な代替手段として探求する。
DiNAは、スライディング・ウインドウ・アテンションと混合拡散因子を組み合わせることで、グローバルコンテキストと局所精度のバランスをとり、過度なオーバーヘッドを伴わずに受容場を効果的に拡大する。
しかし,本研究の予備実験は,このグローバルローカルデザインを従来のデブロアリングタスクに直接適用することにより,局所的な注意の内におけるグローバルコンテキスト理解の制約が原因で,正確な視覚回復を妨げていることを示唆している。
そこで我々は,局所的な注意を補うチャネル認識モジュールを導入し,画素レベルの精度を犠牲にすることなく,グローバルなコンテキストを効果的に統合する。
画像復元に特化したトランスフォーマーベースのアーキテクチャであるDiNAT-IRは、複数のベンチマークで競合する結果を達成し、様々な低レベルコンピュータビジョン問題に対する高品質なソリューションを提供する。
関連論文リスト
- Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention [54.42902794496325]
ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。
軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。
本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:57:23Z) - Efficient Concertormer for Image Deblurring and Beyond [87.07963453448328]
本稿では,画像の劣化を抑えるための新しいCSA機構を提案する。
自己アテンション計算とは無関係な余剰次元の部分情報を保持することにより,画像サイズに線形な大域的文脈表現を効果的に取得する。
本研究の主な目的は, 単一像運動の劣化であるが, 定量的, 質的な評価により, 他の課題における最先端の手法に対して, より良好に行動できることが示されている。
論文 参考訳(メタデータ) (2024-04-09T09:02:21Z) - CascadedGaze: Efficiency in Global Context Extraction for Image Restoration [12.967835674413596]
我々はGCE(Global Context Extractor)を利用したエンコーダデコーダアーキテクチャであるCascadedGaze Network(CGNet)を提案する。
GCEモジュールは、畳み込み層にまたがる小さなカーネルを活用して、自己注意を必要とせず、グローバルな依存関係を学習する。
論文 参考訳(メタデータ) (2024-01-26T22:59:51Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - DALG: Deep Attentive Local and Global Modeling for Image Retrieval [26.773211032906854]
本稿では,Transformerの成功に動機づけられた頑健な表現学習のための,完全な注意に基づくフレームワークを提案する。
グローバルな特徴抽出にTransformerを適用することに加えて、ウィンドウベースのマルチヘッドアテンションと空間アテンションからなるローカルブランチを考案する。
DALG(Deep Attentive Local and Global Modeling framework)では、大規模な実験結果により、効率が大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2022-07-01T09:32:15Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z) - COLA-Net: Collaborative Attention Network for Image Restoration [27.965025010397603]
画像復元のための新しいコラボレーティブアテンションネットワーク(COLA-Net)を提案する。
提案したCOLA-Netは,ピーク信号対雑音比と視覚知覚の両方において最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2021-03-10T09:33:17Z) - Image Super-Resolution with Cross-Scale Non-Local Attention and
Exhaustive Self-Exemplars Mining [66.82470461139376]
本稿では,再帰型ニューラルネットワークに統合されたCS-NLアテンションモジュールを提案する。
新しいCS-NLと局所的および非局所的非局所的前駆体を強力な再帰核融合セルで組み合わせることで、単一の低分解能画像内でよりクロススケールな特徴相関を見出すことができる。
論文 参考訳(メタデータ) (2020-06-02T07:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。