論文の概要: Learning Spatiotemporal Frequency-Transformer for Low-Quality Video
Super-Resolution
- arxiv url: http://arxiv.org/abs/2212.14046v1
- Date: Tue, 27 Dec 2022 16:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 01:37:44.243528
- Title: Learning Spatiotemporal Frequency-Transformer for Low-Quality Video
Super-Resolution
- Title(参考訳): 低画質ビデオ高分解能学習用時空間周波数変換器
- Authors: Zhongwei Qiu, Huan Yang, Jianlong Fu, Daochang Liu, Chang Xu, Dongmei
Fu
- Abstract要約: Video Super-Resolution (VSR)は、高解像度(HR)ビデオを低解像度(LR)ビデオから復元することを目的としている。
既存のVSR技術は通常、近くのフレームから既知の劣化プロセスでテクスチャを抽出することでHRフレームを復元する。
本稿では,空間-時間-周波数領域の組み合わせで自己アテンションを行う低品質ビデオを扱うための新しい周波数変換器(FTVSR)を提案する。
- 参考スコア(独自算出の注目度): 47.5883522564362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Super-Resolution (VSR) aims to restore high-resolution (HR) videos from
low-resolution (LR) videos. Existing VSR techniques usually recover HR frames
by extracting pertinent textures from nearby frames with known degradation
processes. Despite significant progress, grand challenges are remained to
effectively extract and transmit high-quality textures from high-degraded
low-quality sequences, such as blur, additive noises, and compression
artifacts. In this work, a novel Frequency-Transformer (FTVSR) is proposed for
handling low-quality videos that carry out self-attention in a combined
space-time-frequency domain. First, video frames are split into patches and
each patch is transformed into spectral maps in which each channel represents a
frequency band. It permits a fine-grained self-attention on each frequency
band, so that real visual texture can be distinguished from artifacts. Second,
a novel dual frequency attention (DFA) mechanism is proposed to capture the
global frequency relations and local frequency relations, which can handle
different complicated degradation processes in real-world scenarios. Third, we
explore different self-attention schemes for video processing in the frequency
domain and discover that a ``divided attention'' which conducts a joint
space-frequency attention before applying temporal-frequency attention, leads
to the best video enhancement quality. Extensive experiments on three
widely-used VSR datasets show that FTVSR outperforms state-of-the-art methods
on different low-quality videos with clear visual margins. Code and pre-trained
models are available at https://github.com/researchmm/FTVSR.
- Abstract(参考訳): Video Super-Resolution (VSR)は、高解像度(HR)ビデオを低解像度(LR)ビデオから復元することを目的としている。
既存のVSR技術は通常、近くのフレームから関連するテクスチャを既知の劣化プロセスで抽出することでHRフレームを復元する。
著しい進歩にもかかわらず、ブラー、添加音、圧縮品などの高品位低品質シーケンスから、高品質なテクスチャを効果的に抽出し、伝達することが大きな課題である。
本研究では,周波数変換器(FTVSR, Frequency-Transformer)を提案する。
まず、ビデオフレームをパッチに分割し、各パッチを周波数帯域を表すスペクトルマップに変換する。
各周波数帯に微細な自己アテンションを付与することで、実際の視覚テクスチャを人工物と区別することができる。
第2に,実世界シナリオにおいて異なる複雑な劣化過程を処理できるグローバル周波数関係と局所周波数関係を捉えるために,新しいdfa機構を提案する。
第三に、周波数領域におけるビデオ処理のための異なる自己注意方式を探求し、時間周波数の注意を施す前に共同で空間周波数の注意を行う「分割注意」が、最高の映像強調品質をもたらすことを明らかにする。
広く使われている3つのVSRデータセットの大規模な実験により、FTVSRは鮮明な視覚的マージンを持つ様々な低品質ビデオで最先端の手法より優れていることが示された。
コードと事前訓練されたモデルはhttps://github.com/researchmm/FTVSRで入手できる。
関連論文リスト
- Neural Video Representation for Redundancy Reduction and Consistency Preservation [0.0]
入射神経表現(INR)は、様々な信号をニューラルネットワークに埋め込む。
フレームの高周波成分と低周波成分の両方を生成する映像表現法を提案する。
実験の結果,提案手法は既存のHNeRV法よりも優れており,動画の96%において優れた結果が得られた。
論文 参考訳(メタデータ) (2024-09-27T07:30:12Z) - Delving into the Frequency: Temporally Consistent Human Motion Transfer
in the Fourier Space [34.353035276767336]
人間の動き伝達は、写真リアリスティックビデオと時間的に一貫性のあるビデオの合成を指す。
現在の合成ビデオは、ビデオの品質を著しく低下させるシーケンシャルフレームにおける時間的不整合に悩まされている。
本稿では,FreMOTRと命名された新しい周波数ベースのヒューマンモードTRansferフレームワークを提案し,合成ビデオの空間的アーティファクトと時間的不整合を効果的に緩和する。
論文 参考訳(メタデータ) (2022-09-01T05:30:23Z) - Learning Spatiotemporal Frequency-Transformer for Compressed Video
Super-Resolution [38.00182505384986]
圧縮ビデオ超解像(FTVSR)のための新しい周波数変換器を提案する。
まず、ビデオフレームをパッチに分割し、各パッチを周波数帯域を表すDCTスペクトルマップに変換する。
第2に、各周波数帯に時間的注意を加える前に、共同で空間周波数の注意を行う分割された注意が、最高の映像強調品質をもたらすことを明らかにする。
論文 参考訳(メタデータ) (2022-08-05T07:02:30Z) - Towards Interpretable Video Super-Resolution via Alternating
Optimization [115.85296325037565]
低フレームのぼかしビデオから高フレームの高解像度のシャープビデオを生成することを目的とした実時間ビデオ超解法(STVSR)問題について検討する。
本稿では,モデルベースと学習ベースの両方の手法を用いて,解釈可能なSTVSRフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T21:34:05Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。