論文の概要: RouteWinFormer: A Route-Window Transformer for Middle-range Attention in Image Restoration
- arxiv url: http://arxiv.org/abs/2504.16637v1
- Date: Wed, 23 Apr 2025 11:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 16:41:24.709188
- Title: RouteWinFormer: A Route-Window Transformer for Middle-range Attention in Image Restoration
- Title(参考訳): RouteWinFormer: 画像復元における中距離アテンションのためのルートウィンドウ変換器
- Authors: Qifan Li, Tianyi Liang, Xingtao Wang, Xiaopeng Fan,
- Abstract要約: RouteWinFormerはウィンドウベースのトランスフォーマーで、画像復元のミドルレンジコンテキストをモデル化する。
RouteWinFormer には Route-Windows Attnetion Module が組み込まれている。
大規模な実験により、RouteWinFormerは、さまざまなイメージ復元タスクにおいて9つのデータセットにわたる最先端のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 15.098428972993188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have recently garnered significant attention in image restoration due to their ability to capture long-range pixel dependencies. However, long-range attention often results in computational overhead without practical necessity, as degradation and context are typically localized. Normalized average attention distance across various degradation datasets shows that middle-range attention is enough for image restoration. Building on this insight, we propose RouteWinFormer, a novel window-based Transformer that models middle-range context for image restoration. RouteWinFormer incorporates Route-Windows Attnetion Module, which dynamically selects relevant nearby windows based on regional similarity for attention aggregation, extending the receptive field to a mid-range size efficiently. In addition, we introduce Multi-Scale Structure Regularization during training, enabling the sub-scale of the U-shaped network to focus on structural information, while the original-scale learns degradation patterns based on generalized image structure priors. Extensive experiments demonstrate that RouteWinFormer outperforms state-of-the-art methods across 9 datasets in various image restoration tasks.
- Abstract(参考訳): トランスフォーマーモデルは最近、長距離画素依存性をキャプチャする能力のために、画像復元に大きな注目を集めている。
しかし、長期の注意は、分解とコンテキストが典型的に局所化されているため、現実的に必要のない計算オーバーヘッドをもたらすことが多い。
様々な劣化データセットにわたる正規化平均注意距離は、画像復元には中距離注意が十分であることを示している。
この知見に基づいて、画像復元のための中距離コンテキストをモデル化した新しいウィンドウベースのトランスフォーマーであるRouteWinFormerを提案する。
RouteWinFormer には Route-Windows Attnetion Module が組み込まれている。これは、アテンションアグリゲーションの地域的類似性に基づいて、関連するウィンドウを動的に選択し、受信フィールドを中規模まで効率的に拡張する。
さらに,トレーニング中のマルチスケール構造規則化を導入し,U字型ネットワークのサブスケールで構造情報に集中できるようにするとともに,一般化された画像構造に基づく劣化パターンを学習する。
大規模な実験により、RouteWinFormerは、さまざまなイメージ復元タスクにおいて9つのデータセットにわたる最先端のメソッドよりも優れています。
関連論文リスト
- AMSA-UNet: An Asymmetric Multiple Scales U-net Based on Self-attention for Deblurring [7.00986132499006]
asymmetric multiple scales U-net based on self-attention (AMSA-UNet) was proposed to improve the accuracy and compute complexity。
マルチスケールなU字型アーキテクチャを導入することで、ネットワークはグローバルレベルでぼやけた領域に集中でき、ローカルレベルで画像の詳細を回復することができる。
論文 参考訳(メタデータ) (2024-06-13T11:39:02Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - How Powerful Potential of Attention on Image Restoration? [97.9777639562205]
FFNを使わずに注意機構の可能性を探るため,実験的検討を行った。
本研究では,FFNを使わずに3段階にわたって注意を連続的に計算する連続スケーリング注意法(textbfCSAttn)を提案する。
我々の設計は、注意機構をよく調べ、いくつかの単純な操作がモデルの性能に大きく影響することを明らかにする。
論文 参考訳(メタデータ) (2024-03-15T14:23:12Z) - Segmentation Guided Sparse Transformer for Under-Display Camera Image Restoration [22.559924139475903]
Under-Display Camera(UDC)は、ディスプレイパネルの下にカメラを隠してフルスクリーン表示を実現する新興技術である。
本稿では,UDC 画像復元に Vision Transformer を用いることで,大量の冗長情報やノイズを大域的注目度で検出する。
UDC劣化画像から高品質な画像を復元するためのガイドスパース変換器(SGSFormer)を提案する。
論文 参考訳(メタデータ) (2024-03-09T13:11:59Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Cross Aggregation Transformer for Image Restoration [48.390140041131886]
近年,畳み込みニューラルネットワーク(CNN)に代えて,画像復元にトランスフォーマーアーキテクチャが導入されている。
上記の問題に対処するため,新しい画像復元モデルであるCross Aggregation Transformer (CAT)を提案する。
我々のCATの中核はRectangle-Window Self-Attention (Rwin-SA)であり、これは異なる頭部における水平および垂直の矩形窓の注意を平行に利用し、注意領域を広げ、異なる窓を横断する特徴を集約する。
さらに,CNNの帰納バイアス(例えば翻訳における帰納的バイアス)を組み込んだ自己注意機構を補完するLocality Complementary Moduleを提案する。
論文 参考訳(メタデータ) (2022-11-24T15:09:33Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。
本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文 参考訳(メタデータ) (2021-08-19T11:02:25Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。