論文の概要: Implicit Grid Convolution for Multi-Scale Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2408.09674v2
- Date: Fri, 15 Nov 2024 10:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:12.270189
- Title: Implicit Grid Convolution for Multi-Scale Image Super-Resolution
- Title(参考訳): マルチスケール画像超解像のためのインプシットグリッド畳み込み
- Authors: Dongheon Lee, Seokju Yun, Youngmin Ro,
- Abstract要約: 我々は,Implicit Grid Convolution(IGConv)と連携して,単一エンコーダを用いたマルチスケールフレームワークを提案する。
本フレームワークは,既存の固定スケール手法に匹敵する性能を達成しつつ,トレーニング予算を削減し,パラメータを3倍に抑える。
- 参考スコア(独自算出の注目度): 6.8410780175245165
- License:
- Abstract: For Image Super-Resolution (SR), it is common to train and evaluate scale-specific models composed of an encoder and upsampler for each targeted scale. Consequently, many SR studies encounter substantial training times and complex deployment requirements. In this paper, we address this limitation by training and evaluating multiple scales simultaneously. Notably, we observe that encoder features are similar across scales and that the Sub-Pixel Convolution (SPConv), widely-used scale-specific upsampler, exhibits strong inter-scale correlations in its functionality. Building on these insights, we propose a multi-scale framework that employs a single encoder in conjunction with Implicit Grid Convolution (IGConv), our novel upsampler, which unifies SPConv across all scales within a single module. Extensive experiments demonstrate that our framework achieves comparable performance to existing fixed-scale methods while reducing the training budget and stored parameters three-fold and maintaining the same latency. Additionally, we propose IGConv$^{+}$ to improve performance further by addressing spectral bias and allowing input-dependent upsampling and ensembled prediction. As a result, ATD-IGConv$^{+}$ achieves a notable 0.21dB improvement in PSNR on Urban100$\times$4, while also reducing the training budget, stored parameters, and inference cost compared to the existing ATD.
- Abstract(参考訳): Image Super-Resolution (SR) では、エンコーダとアップサンプラーで構成されるスケール特化モデルの訓練と評価が一般的である。
その結果、多くのSR研究は相当な訓練時間と複雑な展開要求に直面した。
本稿では,複数の尺度を同時にトレーニングし,評価することで,この制限に対処する。
特に,エンコーダの機能はスケールにわたって類似しており,広く使用されているスケール固有のアップサンプラーであるSub-Pixel Convolution (SPConv) は,その機能に強いスケール間相関を示す。
これらの知見に基づいて,我々はImplicit Grid Convolution (IGConv) とともに単一エンコーダを用いたマルチスケールフレームワークを提案する。
大規模な実験により、我々のフレームワークは既存の固定スケールメソッドと同等のパフォーマンスを達成し、トレーニング予算を削減し、パラメータを3倍に減らし、同じレイテンシを維持することを実証した。
さらに、スペクトルバイアスに対処し、入力依存のアップサンプリングとアンサンブル予測を可能にすることで、パフォーマンスをさらに向上するIGConv$^{+}$を提案する。
その結果、ATD-IGConv$^{+}$は、Urban100$\times$4のPSNRにおいて、注目すべき0.21dBの改善を実現し、既存のATDと比較してトレーニング予算、格納パラメータ、推論コストを削減した。
関連論文リスト
- Robust Hyperspectral Image Panshapring via Sparse Spatial-Spectral Representation [9.3350274016294]
S$3$RNetはハイパースペクトル画像パネルペンのための新しいフレームワークである。
低分解能ハイパースペクトル画像(LRHSI)と高分解能マルチスペクトル画像(HRMSI)を疎空間スペクトル表現により組み合わせる。
S$3$RNetは、複数の評価指標で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-14T09:09:14Z) - VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Scale Equalization for Multi-Level Feature Fusion [8.541075075344438]
並列ブランチのマルチレベル機能は、異なるスケールにあることが分かりました。
スケール不均衡は普遍的かつ望ましくない欠陥であり、有害な勾配降下を引き起こす。
両線形アップサンプリング後のマルチレベル特徴量間でのスケール平衡を実現するために, スケール等化器の注入を提案する。
論文 参考訳(メタデータ) (2024-02-02T05:25:51Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Scale-Aware Dynamic Network for Continuous-Scale Super-Resolution [16.67263192454279]
連続的スケールSRのためのSADN(Scale-Aware dynamic network)を提案する。
まず、複数のSRタスクを様々なスケールで特徴学習するためのSAD-Conv層を提案する。
第2に,マルチ双線形局所暗黙関数 (MBLIF) を付加した連続スケールアップサンプリングモジュール (CSUM) を考案した。
論文 参考訳(メタデータ) (2021-10-29T09:57:48Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Exploring Multi-Scale Feature Propagation and Communication for Image
Super Resolution [37.91175933401261]
広義のマルチスケール構造に対する統一的な定式化を提案する。
汎用的で効率的なマルチスケール・コンボリューション・ユニット - マルチスケール・クロススケール・シェアウェイト・コンボリューション(MS$3$-Conv)を提案する。
論文 参考訳(メタデータ) (2020-08-01T10:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。