論文の概要: Implicit Grid Convolution for Multi-Scale Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2408.09674v1
- Date: Mon, 19 Aug 2024 03:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:44:03.258170
- Title: Implicit Grid Convolution for Multi-Scale Image Super-Resolution
- Title(参考訳): マルチスケール画像超解像のためのインプシットグリッド畳み込み
- Authors: Dongheon Lee, Seokju Yun, Youngmin Ro,
- Abstract要約: 1つのモデルで複数の整数スケールを同時に訓練するためのフレームワークを提案する。
単一エンコーダを用いて特徴を抽出し,新しいアップサンプラーImplicit Grid Convolution(IGConv)を導入する。
実験の結果,1つのモデルで複数スケールのトレーニングを行うことで,トレーニング予算と記憶パラメータを3分の1削減できることがわかった。
- 参考スコア(独自算出の注目度): 6.8410780175245165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Super-Resolution (SR) achieved significant performance improvement by employing neural networks. Most SR methods conventionally train a single model for each targeted scale, which increases redundancy in training and deployment in proportion to the number of scales targeted. This paper challenges this conventional fixed-scale approach. Our preliminary analysis reveals that, surprisingly, encoders trained at different scales extract similar features from images. Furthermore, the commonly used scale-specific upsampler, Sub-Pixel Convolution (SPConv), exhibits significant inter-scale correlations. Based on these observations, we propose a framework for training multiple integer scales simultaneously with a single model. We use a single encoder to extract features and introduce a novel upsampler, Implicit Grid Convolution~(IGConv), which integrates SPConv at all scales within a single module to predict multiple scales. Our extensive experiments demonstrate that training multiple scales with a single model reduces the training budget and stored parameters by one-third while achieving equivalent inference latency and comparable performance. Furthermore, we propose IGConv$^{+}$, which addresses spectral bias and input-independent upsampling and uses ensemble prediction to improve performance. As a result, SRFormer-IGConv$^{+}$ achieves a remarkable 0.25dB improvement in PSNR at Urban100$\times$4 while reducing the training budget, stored parameters, and inference cost compared to the existing SRFormer.
- Abstract(参考訳): 近年,ニューラルネットワークを用いた超解像(SR)の性能向上が目覚ましい。
ほとんどのSR手法は、通常、目標とするスケールごとに単一のモデルをトレーニングし、ターゲットとするスケールの数に比例して、トレーニングとデプロイメントの冗長性を高める。
本稿では,従来の固定スケールアプローチに挑戦する。
予備分析の結果、異なるスケールで訓練されたエンコーダが画像から類似した特徴を抽出していることが判明した。
さらに,SPConv (Sub-Pixel Convolution, Sub-Pixel Convolution) では, スケール間の相関が顕著である。
これらの観測に基づいて,1つのモデルで複数の整数スケールを同時に学習するためのフレームワークを提案する。
我々は単一エンコーダを使用して特徴を抽出し、新しいアップサンプルであるImplicit Grid Convolution~(IGConv)を導入します。
大規模な実験では、単一のモデルで複数のスケールのトレーニングを行うことで、トレーニング予算と格納パラメータを3分の1削減し、等価な推論レイテンシと同等のパフォーマンスを実現しています。
さらに、IGConv$^{+}$を提案し、これはスペクトルバイアスと入出力独立なアップサンプリングに対処し、アンサンブル予測を用いて性能を向上させる。
その結果、SRFormer-IGConv$^{+}$は、Urban100$\times$4のPSNRにおいて、既存のSRFormerと比較してトレーニング予算、格納パラメータ、推論コストを削減しながら、注目すべき0.25dBの改善を実現した。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Task-Aware Dynamic Transformer for Efficient Arbitrary-Scale Image Super-Resolution [8.78015409192613]
Arbitrary-scale Super- resolution (ASSR) は、任意の拡大スケールで画像超解像の1つのモデルを学ぶことを目的としている。
既存のASSRネットワークは、通常、既製のスケール非依存の特徴抽出器と任意のスケールアップサンプラーから構成される。
本稿では,効率的な画像ASSRのための入力適応型特徴抽出器として,タスク対応動的変換器(TADT)を提案する。
論文 参考訳(メタデータ) (2024-08-16T13:35:52Z) - Scale Equalization for Multi-Level Feature Fusion [8.541075075344438]
並列ブランチのマルチレベル機能は、異なるスケールにあることが分かりました。
スケール不均衡は普遍的かつ望ましくない欠陥であり、有害な勾配降下を引き起こす。
両線形アップサンプリング後のマルチレベル特徴量間でのスケール平衡を実現するために, スケール等化器の注入を提案する。
論文 参考訳(メタデータ) (2024-02-02T05:25:51Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Scale-Aware Dynamic Network for Continuous-Scale Super-Resolution [16.67263192454279]
連続的スケールSRのためのSADN(Scale-Aware dynamic network)を提案する。
まず、複数のSRタスクを様々なスケールで特徴学習するためのSAD-Conv層を提案する。
第2に,マルチ双線形局所暗黙関数 (MBLIF) を付加した連続スケールアップサンプリングモジュール (CSUM) を考案した。
論文 参考訳(メタデータ) (2021-10-29T09:57:48Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Exploring Multi-Scale Feature Propagation and Communication for Image
Super Resolution [37.91175933401261]
広義のマルチスケール構造に対する統一的な定式化を提案する。
汎用的で効率的なマルチスケール・コンボリューション・ユニット - マルチスケール・クロススケール・シェアウェイト・コンボリューション(MS$3$-Conv)を提案する。
論文 参考訳(メタデータ) (2020-08-01T10:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。