論文の概要: Enhancing Video Super-Resolution via Implicit Resampling-based Alignment
- arxiv url: http://arxiv.org/abs/2305.00163v2
- Date: Thu, 18 Jan 2024 02:10:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 20:42:40.200097
- Title: Enhancing Video Super-Resolution via Implicit Resampling-based Alignment
- Title(参考訳): インシシット・リサンプリングに基づくアライメントによるビデオ超解像化
- Authors: Kai Xu, Ziwei Yu, Xin Wang, Michael Bi Mi, Angela Yao
- Abstract要約: 超高解像度ビデオでは、時間とともに情報伝達をサポートするためにフレームワイドアライメントを用いるのが一般的である。
我々は,アライメントが有効であるためには,空間歪みを最小限に抑えながら基準周波数スペクトルを維持すべきであることを示す。
- 参考スコア(独自算出の注目度): 44.27520685545412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In video super-resolution, it is common to use a frame-wise alignment to
support the propagation of information over time. The role of alignment is
well-studied for low-level enhancement in video, but existing works overlook a
critical step -- resampling. We show through extensive experiments that for
alignment to be effective, the resampling should preserve the reference
frequency spectrum while minimizing spatial distortions. However, most existing
works simply use a default choice of bilinear interpolation for resampling even
though bilinear interpolation has a smoothing effect and hinders
super-resolution. From these observations, we propose an implicit
resampling-based alignment. The sampling positions are encoded by a sinusoidal
positional encoding, while the value is estimated with a coordinate network and
a window-based cross-attention. We show that bilinear interpolation inherently
attenuates high-frequency information while an MLP-based coordinate network can
approximate more frequencies. Experiments on synthetic and real-world datasets
show that alignment with our proposed implicit resampling enhances the
performance of state-of-the-art frameworks with minimal impact on both compute
and parameters.
- Abstract(参考訳): ビデオ超解像では、時間とともに情報伝達をサポートするためにフレームワイドアライメントを用いるのが一般的である。
アライメントの役割はビデオの低レベルエンハンスメントのためによく研究されているが、既存の作品は重要なステップである再サンプリングを見落としている。
我々は,アライメントを効果的に行うために,空間的歪みを最小にしつつ,参照周波数スペクトルを保存する実験を行った。
しかし、既存の作品の多くは、双線型補間が平滑化効果を持ち超解像を妨げているにもかかわらず、単に再サンプリングに双線型補間のデフォルト選択を用いる。
これらの観測から,暗黙的な再サンプリングに基づくアライメントを提案する。
サンプリング位置は正弦波位置符号化により符号化され、その値は座標ネットワークとウィンドウベースのクロスアテンションで推定される。
両線形補間は本質的に高周波情報を減衰させるが,MLPに基づく座標ネットワークはより多くの周波数を近似できることを示す。
合成および実世界のデータセットに関する実験では、提案する暗黙的な再サンプリングにより、計算とパラメータの両方に最小限の影響で最先端のフレームワークのパフォーマンスが向上することが示された。
関連論文リスト
- Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - Low-light Stereo Image Enhancement and De-noising in the Low-frequency
Information Enhanced Image Space [5.1569866461097185]
同時に高音化・低音化を行う手法が提案されている。
低周波情報拡張モジュール (IEM) は雑音を抑え, 新たな画像空間を創出するために提案される。
長距離空間依存を符号化するために,チャネル間および空間コンテキスト情報マイニングモジュール(CSM)を提案する。
エンコーダ-デコーダ構造が構築され、クロスビューとクロススケールな特徴相互作用が組み込まれている。
論文 参考訳(メタデータ) (2024-01-15T15:03:32Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Harnessing Low-Frequency Neural Fields for Few-Shot View Synthesis [82.31272171857623]
オーバフィッティングから高周波数のニューラルフィールドを規則化するために、低周波ニューラルフィールドを利用する。
数発の入力に過度に適合しないよう、周波数を調整するための簡単なyet- Effective戦略を提案する。
論文 参考訳(メタデータ) (2023-03-15T05:15:21Z) - Deep Recurrent Neural Network with Multi-scale Bi-directional
Propagation for Video Deblurring [36.94523101375519]
本稿では,RNN-MBP(Multiscale Bi-directional Propagation)を用いたディープリカレントニューラルネットワークを提案する。
提案したアルゴリズムと既存の最先端の手法を現実世界のぼやけたシーンでよりよく評価するために、リアルワールドのぼやけたビデオデータセットも作成する。
提案アルゴリズムは3つの典型的なベンチマークにおける最先端の手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-09T11:02:56Z) - Enhanced Correlation Matching based Video Frame Interpolation [5.304928339627251]
拡張相関マッチングに基づくビデオフレーム補間ネットワークという新しいフレームワークを提案する。
提案手法では,光学的フロー推定のために,各ピラミッド層間のパラメータを共用する繰り返しピラミッド構造を用いる。
実験の結果,提案手法は4Kビデオデータや低解像度のベンチマークデータセット,客観的品質,主観的品質などにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-11-17T02:43:45Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。