論文の概要: An Implicit Alignment for Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2305.00163v1
- Date: Sat, 29 Apr 2023 03:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 16:39:42.109683
- Title: An Implicit Alignment for Video Super-Resolution
- Title(参考訳): ビデオスーパーリゾリューションのための暗黙のアライメント
- Authors: Kai Xu, Ziwei Yu, Xin Wang, Michael Bi Mi, Angela Yao
- Abstract要約: 本稿では,ビデオ超解像のアライメントに対する再サンプリングの影響について検討する。
本稿では,ウィンドウベースのクロスアテンションを通して再サンプリングを行う暗黙アライメント手法を提案する。
実験により、提案された暗黙のアライメントにより、最先端フレームワークのパフォーマンスが向上することが示された。
- 参考スコア(独自算出の注目度): 27.023019246657416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video super-resolution commonly uses a frame-wise alignment to support the
propagation of information over time. The role of alignment is well-studied for
low-level enhancement in video, but existing works have overlooked one critical
step -- re-sampling. Most works, regardless of how they compensate for motion
between frames, be it flow-based warping or deformable convolution/attention,
use the default choice of bilinear interpolation for re-sampling. However,
bilinear interpolation acts effectively as a low-pass filter and thus hinders
the aim of recovering high-frequency content for super-resolution.
This paper studies the impact of re-sampling on alignment for video
super-resolution. Extensive experiments reveal that for alignment to be
effective, the re-sampling should preserve the original sharpness of the
features and prevent distortions. From these observations, we propose an
implicit alignment method that re-samples through a window-based
cross-attention with sampling positions encoded by sinusoidal positional
encoding. The re-sampling is implicitly computed by learned network weights.
Experiments show that the proposed implicit alignment enhances the performance
of state-of-the-art frameworks with minimal impact on both synthetic and
real-world datasets.
- Abstract(参考訳): ビデオのスーパーレゾリューションは通常、時間とともに情報の伝播をサポートするためにフレームアライメントを使用する。
アライメントの役割は、ビデオの低レベルエンハンスメントのためによく研究されているが、既存の作品が重要なステップである再サンプリングを見落としている。
フレーム間の動作を補償する方法に関わらず、フローベースのワーピングや変形可能な畳み込み/アテンションなど、ほとんどの作業では、再サンプリングにバイリニア補間(bilinear interpolation)のデフォルト選択を使用する。
しかし、双線形補間はローパスフィルタとして効果的に機能し、超解像のために高周波コンテンツを回復する目的を阻害する。
本稿では,ビデオ高分解能アライメントにおける再サンプリングの影響について検討する。
大規模な実験により、アライメントを効果的にするためには、再サンプリングは特徴の本来の鋭さを保ち、歪みを防ぐ必要があることが判明した。
そこで,本研究では,正弦波位置符号化により符号化されたサンプリング位置をウィンドウベースのクロスアテンションで再サンプリングする暗黙的アライメント手法を提案する。
再サンプリングは学習したネットワーク重みによって暗黙的に計算される。
実験によると、提案された暗黙のアライメントは、合成データセットと実世界のデータセットの両方に最小限の影響で、最先端フレームワークのパフォーマンスを向上させる。
関連論文リスト
- Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - Low-light Stereo Image Enhancement and De-noising in the Low-frequency
Information Enhanced Image Space [5.1569866461097185]
同時に高音化・低音化を行う手法が提案されている。
低周波情報拡張モジュール (IEM) は雑音を抑え, 新たな画像空間を創出するために提案される。
長距離空間依存を符号化するために,チャネル間および空間コンテキスト情報マイニングモジュール(CSM)を提案する。
エンコーダ-デコーダ構造が構築され、クロスビューとクロススケールな特徴相互作用が組み込まれている。
論文 参考訳(メタデータ) (2024-01-15T15:03:32Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Harnessing Low-Frequency Neural Fields for Few-Shot View Synthesis [82.31272171857623]
オーバフィッティングから高周波数のニューラルフィールドを規則化するために、低周波ニューラルフィールドを利用する。
数発の入力に過度に適合しないよう、周波数を調整するための簡単なyet- Effective戦略を提案する。
論文 参考訳(メタデータ) (2023-03-15T05:15:21Z) - Deep Recurrent Neural Network with Multi-scale Bi-directional
Propagation for Video Deblurring [36.94523101375519]
本稿では,RNN-MBP(Multiscale Bi-directional Propagation)を用いたディープリカレントニューラルネットワークを提案する。
提案したアルゴリズムと既存の最先端の手法を現実世界のぼやけたシーンでよりよく評価するために、リアルワールドのぼやけたビデオデータセットも作成する。
提案アルゴリズムは3つの典型的なベンチマークにおける最先端の手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-09T11:02:56Z) - Enhanced Correlation Matching based Video Frame Interpolation [5.304928339627251]
拡張相関マッチングに基づくビデオフレーム補間ネットワークという新しいフレームワークを提案する。
提案手法では,光学的フロー推定のために,各ピラミッド層間のパラメータを共用する繰り返しピラミッド構造を用いる。
実験の結果,提案手法は4Kビデオデータや低解像度のベンチマークデータセット,客観的品質,主観的品質などにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-11-17T02:43:45Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。