論文の概要: Implicit Grid Convolution for Multi-Scale Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2408.09674v2
- Date: Fri, 15 Nov 2024 10:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:12.270189
- Title: Implicit Grid Convolution for Multi-Scale Image Super-Resolution
- Title(参考訳): マルチスケール画像超解像のためのインプシットグリッド畳み込み
- Authors: Dongheon Lee, Seokju Yun, Youngmin Ro,
- Abstract要約: 我々は,Implicit Grid Convolution(IGConv)と連携して,単一エンコーダを用いたマルチスケールフレームワークを提案する。
本フレームワークは,既存の固定スケール手法に匹敵する性能を達成しつつ,トレーニング予算を削減し,パラメータを3倍に抑える。
- 参考スコア(独自算出の注目度): 6.8410780175245165
- License:
- Abstract: For Image Super-Resolution (SR), it is common to train and evaluate scale-specific models composed of an encoder and upsampler for each targeted scale. Consequently, many SR studies encounter substantial training times and complex deployment requirements. In this paper, we address this limitation by training and evaluating multiple scales simultaneously. Notably, we observe that encoder features are similar across scales and that the Sub-Pixel Convolution (SPConv), widely-used scale-specific upsampler, exhibits strong inter-scale correlations in its functionality. Building on these insights, we propose a multi-scale framework that employs a single encoder in conjunction with Implicit Grid Convolution (IGConv), our novel upsampler, which unifies SPConv across all scales within a single module. Extensive experiments demonstrate that our framework achieves comparable performance to existing fixed-scale methods while reducing the training budget and stored parameters three-fold and maintaining the same latency. Additionally, we propose IGConv$^{+}$ to improve performance further by addressing spectral bias and allowing input-dependent upsampling and ensembled prediction. As a result, ATD-IGConv$^{+}$ achieves a notable 0.21dB improvement in PSNR on Urban100$\times$4, while also reducing the training budget, stored parameters, and inference cost compared to the existing ATD.
- Abstract(参考訳): Image Super-Resolution (SR) では、エンコーダとアップサンプラーで構成されるスケール特化モデルの訓練と評価が一般的である。
その結果、多くのSR研究は相当な訓練時間と複雑な展開要求に直面した。
本稿では,複数の尺度を同時にトレーニングし,評価することで,この制限に対処する。
特に,エンコーダの機能はスケールにわたって類似しており,広く使用されているスケール固有のアップサンプラーであるSub-Pixel Convolution (SPConv) は,その機能に強いスケール間相関を示す。
これらの知見に基づいて,我々はImplicit Grid Convolution (IGConv) とともに単一エンコーダを用いたマルチスケールフレームワークを提案する。
大規模な実験により、我々のフレームワークは既存の固定スケールメソッドと同等のパフォーマンスを達成し、トレーニング予算を削減し、パラメータを3倍に減らし、同じレイテンシを維持することを実証した。
さらに、スペクトルバイアスに対処し、入力依存のアップサンプリングとアンサンブル予測を可能にすることで、パフォーマンスをさらに向上するIGConv$^{+}$を提案する。
その結果、ATD-IGConv$^{+}$は、Urban100$\times$4のPSNRにおいて、注目すべき0.21dBの改善を実現し、既存のATDと比較してトレーニング予算、格納パラメータ、推論コストを削減した。
関連論文リスト
- Scale Equalization for Multi-Level Feature Fusion [8.541075075344438]
並列ブランチのマルチレベル機能は、異なるスケールにあることが分かりました。
スケール不均衡は普遍的かつ望ましくない欠陥であり、有害な勾配降下を引き起こす。
両線形アップサンプリング後のマルチレベル特徴量間でのスケール平衡を実現するために, スケール等化器の注入を提案する。
論文 参考訳(メタデータ) (2024-02-02T05:25:51Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Conditional Variational Autoencoder with Balanced Pre-training for
Generative Adversarial Networks [11.46883762268061]
クラス不均衡は、各クラスの画像数が大きく異なる画像分類を含む多くの実世界のアプリケーションで発生する。
不均衡なデータでは、GAN(Generative Adversarial Network)は多数派に傾いている。
本稿では, リアルな合成画像を生成するための拡張ツールとして, CAPGAN (Geneversarative Adrial Networks) のためのバランス付き事前学習機能を備えた新しい変分オートエンコーダを提案する。
論文 参考訳(メタデータ) (2022-01-13T06:52:58Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Insta-RS: Instance-wise Randomized Smoothing for Improved Robustness and
Accuracy [9.50143683501477]
Insta-RSは、テスト例にカスタマイズされたガウス分散を割り当てるマルチスタート検索アルゴリズムである。
Insta-RS Trainは、各トレーニング例のノイズレベルを適応的に調整し、カスタマイズする新しい2段階トレーニングアルゴリズムです。
本手法は,平均認定半径(ACR)とクリーンデータ精度を有意に向上させることを示した。
論文 参考訳(メタデータ) (2021-03-07T19:46:07Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。