論文の概要: Channel-Partitioned Windowed Attention And Frequency Learning for Single Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2407.16232v2
- Date: Tue, 27 Aug 2024 07:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 18:49:32.252330
- Title: Channel-Partitioned Windowed Attention And Frequency Learning for Single Image Super-Resolution
- Title(参考訳): 単一画像超解像に対するチャネル分割ウィンドウ注意と周波数学習
- Authors: Dinh Phu Tran, Dao Duy Hung, Daeyoung Kim,
- Abstract要約: ウィンドウベースのアテンション手法は特にSingle Image Super-Resolution (SISR)においてコンピュータビジョンタスクに大きな可能性を示している。
特徴マップの高さと幅に沿ってウィンドウを逐次拡大することにより、長距離依存をよりよく捉えるために、チャネル分割型注意変換器(CPAT)を提案する。
さらに、空間・周波数相互作用モジュール(Spatial-Frequency Interaction Module, SFIM)を提案する。
- 参考スコア(独自算出の注目度): 1.8506868409351092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, window-based attention methods have shown great potential for computer vision tasks, particularly in Single Image Super-Resolution (SISR). However, it may fall short in capturing long-range dependencies and relationships between distant tokens. Additionally, we find that learning on spatial domain does not convey the frequency content of the image, which is a crucial aspect in SISR. To tackle these issues, we propose a new Channel-Partitioned Attention Transformer (CPAT) to better capture long-range dependencies by sequentially expanding windows along the height and width of feature maps. In addition, we propose a novel Spatial-Frequency Interaction Module (SFIM), which incorporates information from spatial and frequency domains to provide a more comprehensive information from feature maps. This includes information about the frequency content and enhances the receptive field across the entire image. Experimental findings show the effectiveness of our proposed modules and architecture. In particular, CPAT surpasses current state-of-the-art methods by up to 0.31dB at x2 SR on Urban100.
- Abstract(参考訳): 近年、特にSingle Image Super-Resolution (SISR)において、ウィンドウベースのアテンション手法がコンピュータビジョンタスクに大きな可能性を示している。
しかし、長距離の依存関係と遠いトークン間の関係を捉えるには不足する可能性がある。
さらに,空間領域での学習は画像の周波数を伝達しないことが明らかとなった。
これらの課題に対処するために,特徴マップの高さと幅に沿ってウィンドウを順次拡張することにより,長距離依存をよりよく捉えるためのチャネル分割注意変換器 (CPAT) を提案する。
さらに、空間・周波数相互作用モジュール(Spatial-Frequency Interaction Module, SFIM)を提案する。
これには、周波数内容に関する情報が含まれ、画像全体にわたって受容野を強化する。
実験により,提案したモジュールとアーキテクチャの有効性が示された。
特にCPATは、Urban100上のx2 SRにおいて、最先端の手法を0.31dBまで上回っている。
関連論文リスト
- ML-CrAIST: Multi-scale Low-high Frequency Information-based Cross black Attention with Image Super-resolving Transformer [3.686808512438363]
この研究は、ML-CrAISTと呼ばれるトランスフォーマーベースの超解像アーキテクチャを提案する。
我々は空間的およびチャネル的自己アテンションを運用し、空間的およびチャネル的両方の次元から画素間相互作用を同時にモデル化する。
超解像のためのクロスアテンションブロックを考案し、低周波情報と高周波情報との相関について検討する。
論文 参考訳(メタデータ) (2024-08-19T12:23:15Z) - Exploring Richer and More Accurate Information via Frequency Selection for Image Restoration [0.0]
空間および周波数領域の知識をシームレスに統合するマルチスケール周波数選択ネットワーク(MSFSNet)を導入する。
我々のMSFSNetは最先端のアルゴリズムに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-07-12T03:10:08Z) - An Advanced Features Extraction Module for Remote Sensing Image Super-Resolution [0.5461938536945723]
チャネル・アンド・スペースアテンション特徴抽出(CSA-FE)と呼ばれる高度な特徴抽出モジュールを提案する。
提案手法は,高頻度情報を含む特定のチャネルや空間的位置に着目し,関連する特徴に焦点を合わせ,無関係な特徴を抑えるのに役立つ。
本モデルは,既存モデルと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-07T18:15:51Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Spatial-Frequency Attention for Image Denoising [22.993509525990998]
本研究では,長距離依存性を利用した空間周波数アテンションネットワーク(SFANet)を提案する。
複数のdenoisingベンチマークの実験は、SFANetネットワークのリードパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-02-27T09:07:15Z) - SufrinNet: Toward Sufficient Cross-View Interaction for Stereo Image
Enhancement in The Dark [119.01585302856103]
低照度ステレオ画像強調(LLSIE)は、暗黒環境で撮影された視覚的に不快なステレオ画像の品質を高めるための比較的新しいタスクである。
1)クロスビューの相互作用が不十分なこと,2)ビュー内学習に長距離依存が欠如していること,である。
SufrinNet(SufrinNet)を用いた新しいLLSIEモデルを提案する。
論文 参考訳(メタデータ) (2022-11-02T04:01:30Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Deep Burst Super-Resolution [165.90445859851448]
バースト超解像タスクのための新しいアーキテクチャを提案する。
我々のネットワークは複数のノイズRAW画像を入力として取り出し、出力として分解された超解像RGB画像を生成する。
実世界のデータのトレーニングと評価を可能にするため,BurstSRデータセットも導入する。
論文 参考訳(メタデータ) (2021-01-26T18:57:21Z) - Multi-Attention-Network for Semantic Segmentation of Fine Resolution
Remote Sensing Images [10.835342317692884]
リモートセンシング画像におけるセマンティックセグメンテーションの精度は、ディープ畳み込みニューラルネットワークによって著しく向上した。
本稿では,これらの問題に対処するマルチアテンション・ネットワーク(MANet)を提案する。
線形複雑性を伴うカーネル注意の新たなアテンション機構が提案され,注目される計算負荷の低減が図られた。
論文 参考訳(メタデータ) (2020-09-03T09:08:02Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。