Fugu-MT 論文翻訳(概要): Omni Aggregation Networks for Lightweight Image Super-Resolution

論文の概要: Omni Aggregation Networks for Lightweight Image Super-Resolution

arxiv url: http://arxiv.org/abs/2304.10244v2
Date: Mon, 24 Apr 2023 09:03:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 11:21:31.272515
Title: Omni Aggregation Networks for Lightweight Image Super-Resolution
Title（参考訳）: 軽量画像超解像のための全アグリゲーションネットワーク
Authors: Hang Wang, Xuanhong Chen, Bingbing Ni, Yutian Liu, Jinfan Liu
Abstract要約: この研究は、新しいOmni-SRアーキテクチャの下で2つの拡張されたコンポーネントを提案する。まず、密接な相互作用原理に基づいて、Omni Self-Attention (OSA)ブロックを提案する。第二に、準最適RFを緩和するマルチスケール相互作用方式を提案する。
参考スコア（独自算出の注目度）: 42.252518645833696
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While lightweight ViT framework has made tremendous progress in image super-resolution, its uni-dimensional self-attention modeling, as well as homogeneous aggregation scheme, limit its effective receptive field (ERF) to include more comprehensive interactions from both spatial and channel dimensions. To tackle these drawbacks, this work proposes two enhanced components under a new Omni-SR architecture. First, an Omni Self-Attention (OSA) block is proposed based on dense interaction principle, which can simultaneously model pixel-interaction from both spatial and channel dimensions, mining the potential correlations across omni-axis (i.e., spatial and channel). Coupling with mainstream window partitioning strategies, OSA can achieve superior performance with compelling computational budgets. Second, a multi-scale interaction scheme is proposed to mitigate sub-optimal ERF (i.e., premature saturation) in shallow models, which facilitates local propagation and meso-/global-scale interactions, rendering an omni-scale aggregation building block. Extensive experiments demonstrate that Omni-SR achieves record-high performance on lightweight super-resolution benchmarks (e.g., 26.95 dB@Urban100 $\times 4$ with only 792K parameters). Our code is available at \url{https://github.com/Francis0625/Omni-SR}.
Abstract（参考訳）: 軽量なViTフレームワークは画像超解像を著しく進歩させてきたが、その一次元の自己認識モデリングは、同質のアグリゲーションスキームと同様に、その有効受容場(ERF)を空間次元とチャネル次元の両方からより包括的な相互作用を含むように制限している。これらの欠点に対処するため、新しいOmni-SRアーキテクチャの下で2つの拡張されたコンポーネントを提案する。まず,空間次元とチャネル次元の両方からピクセル相互作用を同時にモデル化し,全軸(すなわち空間とチャネル)間のポテンシャル相関をマイニングする,密接な相互作用原理に基づく全自己着(osa)ブロックを提案する。メインストリームのウィンドウ分割戦略と組み合わせることで、OSAは魅力的な計算予算で優れたパフォーマンスを達成することができる。第二に, 浅層モデルにおける準最適erf(即ち早期飽和)を緩和し, 局所伝播とメソ/グローバル相互作用を容易にし, 全規模集約構築ブロックを作成するマルチスケールインタラクションスキームを提案する。大規模な実験により、Omni-SRは軽量超高解像度ベンチマーク(例: 26.95 dB@Urban100 $\times 4$、パラメータは792K)で最高性能を達成した。我々のコードは \url{https://github.com/Francis0625/Omni-SR} で入手できる。

関連論文リスト

Efficient Image Super-Resolution with Multi-Scale Spatial Adaptive Attention Networks [3.4782736103257323]
本稿では,マルチスケール空間適応注意ネットワーク(MSAAN)と呼ばれる,軽量画像超解像(SR)ネットワークを提案する。提案手法のコアとなるのは,局所的な細部と長期のコンテキスト依存性を協調的にモデル化する,マルチスケール空間適応型注意モジュール(MSAA)である。
論文参考訳（メタデータ） (2026-02-22T07:47:39Z)
BasicAVSR: Arbitrary-Scale Video Super-Resolution via Image Priors and Enhanced Motion Compensation [70.27358326228399]
任意スケールビデオ超解像(AVSR)のためのベーシックAVSRを提案する。 AVSRは、ビデオフレームの解像度、潜在的に様々なスケーリング要素を強化することを目的としている。超高分解能, 一般化能力, 推論速度の点で, BasicAVSR は既存手法よりも優れていた。
論文参考訳（メタデータ） (2025-10-30T05:08:45Z)
Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution [33.457410717030946]
超高解像度ビデオのための最初の状態空間モデルフレームワークであるMambaVSRを提案する。 MambaVSRは共有コンパス構築(SCC)とコンテンツ認識シーケンス化(CAS)を通じて動的相互作用を可能にする CASモジュールは、学習された空間秩序に沿って時間的特徴をインターリーブすることにより、複数のフレームにまたがる非局所的な類似コンテンツを効果的に調整し集約する。
論文参考訳（メタデータ） (2025-06-13T13:22:28Z)
Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文参考訳（メタデータ） (2025-04-23T06:44:46Z)
Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文参考訳（メタデータ） (2024-12-19T13:10:38Z)
ASANet: Asymmetric Semantic Aligning Network for RGB and SAR image land cover classification [5.863175733097434]
特徴レベルでの非対称性の問題に対処するため,非対称セマンティックアライニングネットワーク (ASANet) という新しいアーキテクチャを提案する。提案するASANetは,2つのモード間の特徴相関を効果的に学習し,特徴差によるノイズを除去する。我々は、新しいRGB-SARマルチモーダルデータセットを構築し、ASANetは1.21%から17.69%の改善で他の主流メソッドよりも優れています。
論文参考訳（メタデータ） (2024-12-03T00:03:33Z)
$\text{S}^{3}$Mamba: Arbitrary-Scale Super-Resolution via Scaleable State Space Model [45.65903826290642]
ASSRは、1つのモデルを用いて、任意のスケールで低解像度画像を高解像度画像に超解き放つことを目的としている。拡張性のある連続表現空間を構築するために,$textS3$Mambaと呼ばれる新しい任意のスケール超解法を提案する。
論文参考訳（メタデータ） (2024-11-16T11:13:02Z)
Large coordinate kernel attention network for lightweight image super-resolution [5.66935513638074]
マルチスケールの受容場を持つ高効率なビルディングブロックとして,マルチスケールのブループリント分離可能な畳み込み(MBSConv)を提案する。また,LKAの2次元畳み込みカーネルを水平および垂直の1次元カーネルに分解する大規模座標カーネルアテンション (LCKA) モジュールを提案する。
論文参考訳（メタデータ） (2024-05-15T14:03:38Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
Spatially-Adaptive Feature Modulation for Efficient Image Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。提案法は最先端のSR法よりも3倍程度小さい。
論文参考訳（メタデータ） (2023-02-27T14:19:31Z)
HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文参考訳（メタデータ） (2022-11-19T17:09:50Z)
ShuffleMixer: An Efficient ConvNet for Image Super-Resolution [88.86376017828773]
本稿では、大きな畳み込みとチャネル分割シャッフル操作を探索する軽量画像超解像のためのShuffleMixerを提案する。具体的には,チャネル分割とシャッフルを基本成分とする2つのプロジェクション層を効率よく混合する。実験結果から,ShuffleMixerはモデルパラメータやFLOPの手法に比べて約6倍小さいことがわかった。
論文参考訳（メタデータ） (2022-05-30T15:26:52Z)
MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文参考訳（メタデータ） (2021-10-21T16:45:23Z)
Lightweight Single-Image Super-Resolution Network with Attentive Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-11-13T06:01:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。