論文の概要: Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention
- arxiv url: http://arxiv.org/abs/2505.16157v1
- Date: Thu, 22 May 2025 02:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.996535
- Title: Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention
- Title(参考訳): 複雑度障壁を破る: ランク強化線形注意による高分解能画像復元
- Authors: Yuang Ai, Huaibo Huang, Tao Wu, Qihang Fan, Ran He,
- Abstract要約: ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。
軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。
本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
- 参考スコア(独自算出の注目度): 54.42902794496325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have made remarkable progress in image restoration (IR) tasks. However, the quadratic complexity of self-attention in Transformer hinders its applicability to high-resolution images. Existing methods mitigate this issue with sparse or window-based attention, yet inherently limit global context modeling. Linear attention, a variant of softmax attention, demonstrates promise in global context modeling while maintaining linear complexity, offering a potential solution to the above challenge. Despite its efficiency benefits, vanilla linear attention suffers from a significant performance drop in IR, largely due to the low-rank nature of its attention map. To counter this, we propose Rank Enhanced Linear Attention (RELA), a simple yet effective method that enriches feature representations by integrating a lightweight depthwise convolution. Building upon RELA, we propose an efficient and effective image restoration Transformer, named LAformer. LAformer achieves effective global perception by integrating linear attention and channel attention, while also enhancing local fitting capabilities through a convolutional gated feed-forward network. Notably, LAformer eliminates hardware-inefficient operations such as softmax and window shifting, enabling efficient processing of high-resolution images. Extensive experiments across 7 IR tasks and 21 benchmarks demonstrate that LAformer outperforms SOTA methods and offers significant computational advantages.
- Abstract(参考訳): トランスフォーマーベースのモデルは、画像復元(IR)タスクにおいて顕著な進歩を遂げた。
しかし、トランスフォーマーにおける自己注意の二次的複雑さは、高解像度画像への適用性を妨げている。
既存のメソッドはこの問題をスパースやウィンドウベースの注意で緩和するが、本質的にはグローバルなコンテキストモデリングを制限する。
リニアアテンション(Linear attention)は、ソフトマックスアテンションの変種であり、線形複雑性を維持しながらグローバルコンテキストモデリングにおける将来性を示し、上記の課題に対する潜在的な解決策を提供する。
その効率性にもかかわらず、バニラ線形の注意は、その注目マップの低ランク性のため、IRの大幅な性能低下に悩まされている。
これに対応するために、軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRanc Enhanced Linear Attention (RELA)を提案する。
本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
LAformerは、線形アテンションとチャネルアテンションを統合し、畳み込みゲートフィードフォワードネットワークを介して局所的なフィッティング能力を向上することにより、効果的なグローバルな認識を実現する。
特に、LAformerはソフトマックスやウィンドウシフトのようなハードウェア非効率な操作を排除し、高解像度画像の効率的な処理を可能にする。
7つのIRタスクと21のベンチマークにわたる大規模な実験は、LAformerがSOTAメソッドより優れており、計算上の優位性があることを示している。
関連論文リスト
- Joint multi-dimensional dynamic attention and transformer for general image restoration [14.987034136856463]
屋外のイメージは 雨や迷路、騒音などによって 深刻な劣化に苦しむことが多い
現在の画像復元法は、効率を保ちながら複雑な劣化を扱うのに苦労している。
本稿では,多次元動的注意と自己注意を組み合わせた新しい画像復元アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:58:09Z) - Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Large-scale Global Low-rank Optimization for Computational Compressed
Imaging [8.594666859332124]
本稿では,グローバルな自己相似性と高効率な大規模再構成を実現するグローバル低ランク(GLR)最適化手法を提案する。
深層学習における自己認識機構に触発されたGLRは、従来の一様選択の代わりに特徴検出によって画像パッチを抽出する。
時間・周波数・スペクトル次元におけるGLRの有効性を実験的に実証した。
論文 参考訳(メタデータ) (2023-01-08T14:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。