論文の概要: CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2503.06896v1
- Date: Mon, 10 Mar 2025 04:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:21.734613
- Title: CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution
- Title(参考訳): CATANet: 軽量画像超解像のための効率的なコンテンツ認識トークン集約
- Authors: Xin Liu, Jie Liu, Jie Tang, Gangshan Wu,
- Abstract要約: Image Super-Resolution (SR)のような低レベル視覚タスクにおいて、トランスフォーマーベースの手法は印象的な性能を示した。
これらの手法は、コンテンツに依存しない局所領域への注意を制限し、長距離依存性をキャプチャする注意力を直接制限する。
本稿では,これらの問題に対処する軽量なコンテンツ対応トークン集約ネットワーク(CATANet)を提案する。
提案手法はPSNRを最大0.33dB、推論速度をほぼ2倍に向上させる。
- 参考スコア(独自算出の注目度): 42.76046559103463
- License:
- Abstract: Transformer-based methods have demonstrated impressive performance in low-level visual tasks such as Image Super-Resolution (SR). However, its computational complexity grows quadratically with the spatial resolution. A series of works attempt to alleviate this problem by dividing Low-Resolution images into local windows, axial stripes, or dilated windows. SR typically leverages the redundancy of images for reconstruction, and this redundancy appears not only in local regions but also in long-range regions. However, these methods limit attention computation to content-agnostic local regions, limiting directly the ability of attention to capture long-range dependency. To address these issues, we propose a lightweight Content-Aware Token Aggregation Network (CATANet). Specifically, we propose an efficient Content-Aware Token Aggregation module for aggregating long-range content-similar tokens, which shares token centers across all image tokens and updates them only during the training phase. Then we utilize intra-group self-attention to enable long-range information interaction. Moreover, we design an inter-group cross-attention to further enhance global information interaction. The experimental results show that, compared with the state-of-the-art cluster-based method SPIN, our method achieves superior performance, with a maximum PSNR improvement of 0.33dB and nearly double the inference speed.
- Abstract(参考訳): トランスフォーマーに基づく手法は、画像超解法(SR)のような低レベルの視覚タスクにおいて、印象的な性能を示す。
しかし、その計算複雑性は空間分解能によって2次的に増大する。
一連の研究は、低解像度画像をローカルウィンドウ、軸線、拡張ウィンドウに分割することでこの問題を緩和しようと試みている。
SRは通常、再構成のために画像の冗長性を利用するが、この冗長性は局所的だけでなく、長距離的にも見られる。
しかし、これらの手法は、注意計算をコンテンツに依存しない局所領域に制限し、長距離依存を捕捉する注意力を直接制限する。
これらの課題に対処するため,コンテント・アウェア・トークン・アグリゲーション・ネットワーク(CATANet)を提案する。
具体的には、全ての画像トークンにトークンセンターを共有し、トレーニング期間中にのみ更新する長距離コンテンツ類似トークンを集約する、効率的なコンテンツ対応トークン集約モジュールを提案する。
次に,グループ内自己意識を利用して,長距離情報通信を実現する。
さらに,グローバルな情報インタラクションを強化するために,グループ間相互意識を設計する。
実験結果から,最新のクラスタベース手法であるSPINと比較して,PSNRの改善が最大0.33dB,推論速度がほぼ2倍に向上し,優れた性能が得られた。
関連論文リスト
- DDU-Net: A Domain Decomposition-based CNN for High-Resolution Image Segmentation on Multiple GPUs [46.873264197900916]
ドメイン分解に基づくU-Netアーキテクチャを導入し、入力イメージを重複しないパッチに分割する。
空間コンテキストの理解を高めるために、パッチ間情報交換を容易にするための通信ネットワークが追加される。
その結果、この手法は、パッチ間通信のない同一ネットワークと比較して、IoU(Universal over Union)スコアよりも2~3,%高い交点を達成できることが判明した。
論文 参考訳(メタデータ) (2024-07-31T01:07:21Z) - Channel-Partitioned Windowed Attention And Frequency Learning for Single Image Super-Resolution [1.8506868409351092]
ウィンドウベースのアテンション手法は特にSingle Image Super-Resolution (SISR)においてコンピュータビジョンタスクに大きな可能性を示している。
特徴マップの高さと幅に沿ってウィンドウを逐次拡大することにより、長距離依存をよりよく捉えるために、チャネル分割型注意変換器(CPAT)を提案する。
さらに、空間・周波数相互作用モジュール(Spatial-Frequency Interaction Module, SFIM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T07:17:10Z) - CiaoSR: Continuous Implicit Attention-in-Attention Network for
Arbitrary-Scale Image Super-Resolution [158.2282163651066]
本稿ではCiaoSRと呼ばれる連続的な暗黙の注意-注意ネットワークを提案する。
我々は、周辺地域の特徴のアンサンブル重みを学習するために、暗黙の注意ネットワークを明示的に設計する。
我々は、この暗黙の注意ネットワークにスケールアウェアの注意を埋め込んで、追加の非ローカル情報を活用する。
論文 参考訳(メタデータ) (2022-12-08T15:57:46Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - An attention-driven hierarchical multi-scale representation for visual
recognition [3.3302293148249125]
畳み込みニューラルネットワーク(CNN)は、視覚内容の理解に革命をもたらした。
グラフ畳み込みネットワーク(GCN)を探索することにより,高レベルの長距離依存関係を捕捉する手法を提案する。
本手法は,細粒度と総称的な視覚的分類の両問題を解くのに極めて効果的である。
論文 参考訳(メタデータ) (2021-10-23T09:22:22Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。