論文の概要: Omni Aggregation Networks for Lightweight Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2304.10244v1
- Date: Thu, 20 Apr 2023 12:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:43:50.417995
- Title: Omni Aggregation Networks for Lightweight Image Super-Resolution
- Title(参考訳): 軽量画像超解像のための全アグリゲーションネットワーク
- Authors: Hang Wang, Xuanhong Chen, Bingbing Ni, Yutian Liu, Jinfan Liu
- Abstract要約: この研究は、新しいOmni-SRアーキテクチャの下で2つの拡張されたコンポーネントを提案する。
まず、密接な相互作用原理に基づいて、Omni Self-Attention (OSA)ブロックを提案する。
第二に、準最適RFを緩和するマルチスケール相互作用方式を提案する。
- 参考スコア(独自算出の注目度): 42.252518645833696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While lightweight ViT framework has made tremendous progress in image
super-resolution, its uni-dimensional self-attention modeling, as well as
homogeneous aggregation scheme, limit its effective receptive field (ERF) to
include more comprehensive interactions from both spatial and channel
dimensions. To tackle these drawbacks, this work proposes two enhanced
components under a new Omni-SR architecture. First, an Omni Self-Attention
(OSA) block is proposed based on dense interaction principle, which can
simultaneously model pixel-interaction from both spatial and channel
dimensions, mining the potential correlations across omni-axis (i.e., spatial
and channel). Coupling with mainstream window partitioning strategies, OSA can
achieve superior performance with compelling computational budgets. Second, a
multi-scale interaction scheme is proposed to mitigate sub-optimal ERF (i.e.,
premature saturation) in shallow models, which facilitates local propagation
and meso-/global-scale interactions, rendering an omni-scale aggregation
building block. Extensive experiments demonstrate that Omni-SR achieves
record-high performance on lightweight super-resolution benchmarks (e.g., 26.95
dB@Urban100 $\times 4$ with only 792K parameters). Our code is available at
\url{https://github.com/Francis0625/Omni-SR}.
- Abstract(参考訳): 軽量なViTフレームワークは画像超解像を著しく進歩させてきたが、その一次元の自己認識モデリングは、同質のアグリゲーションスキームと同様に、その有効受容場(ERF)を空間次元とチャネル次元の両方からより包括的な相互作用を含むように制限している。
これらの欠点に対処するため、新しいOmni-SRアーキテクチャの下で2つの拡張されたコンポーネントを提案する。
まず,空間次元とチャネル次元の両方からピクセル相互作用を同時にモデル化し,全軸(すなわち空間とチャネル)間のポテンシャル相関をマイニングする,密接な相互作用原理に基づく全自己着(osa)ブロックを提案する。
メインストリームのウィンドウ分割戦略と組み合わせることで、OSAは魅力的な計算予算で優れたパフォーマンスを達成することができる。
第二に, 浅層モデルにおける準最適erf(即ち早期飽和)を緩和し, 局所伝播とメソ/グローバル相互作用を容易にし, 全規模集約構築ブロックを作成するマルチスケールインタラクションスキームを提案する。
大規模な実験により、Omni-SRは軽量超高解像度ベンチマーク(例: 26.95 dB@Urban100 $\times 4$、パラメータは792K)で最高性能を達成した。
我々のコードは \url{https://github.com/Francis0625/Omni-SR} で入手できる。
関連論文リスト
- $\text{S}^{3}$Mamba: Arbitrary-Scale Super-Resolution via Scaleable State Space Model [45.65903826290642]
ASSRは、1つのモデルを用いて、任意のスケールで低解像度画像を高解像度画像に超解き放つことを目的としている。
拡張性のある連続表現空間を構築するために,$textS3$Mambaと呼ばれる新しい任意のスケール超解法を提案する。
論文 参考訳(メタデータ) (2024-11-16T11:13:02Z) - Large coordinate kernel attention network for lightweight image super-resolution [5.66935513638074]
マルチスケールの受容場を持つ高効率なビルディングブロックとして,マルチスケールのブループリント分離可能な畳み込み(MBSConv)を提案する。
また,LKAの2次元畳み込みカーネルを水平および垂直の1次元カーネルに分解する大規模座標カーネルアテンション (LCKA) モジュールを提案する。
論文 参考訳(メタデータ) (2024-05-15T14:03:38Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - ShuffleMixer: An Efficient ConvNet for Image Super-Resolution [88.86376017828773]
本稿では、大きな畳み込みとチャネル分割シャッフル操作を探索する軽量画像超解像のためのShuffleMixerを提案する。
具体的には,チャネル分割とシャッフルを基本成分とする2つのプロジェクション層を効率よく混合する。
実験結果から,ShuffleMixerはモデルパラメータやFLOPの手法に比べて約6倍小さいことがわかった。
論文 参考訳(メタデータ) (2022-05-30T15:26:52Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。