論文の概要: STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction
- arxiv url: http://arxiv.org/abs/2203.16084v1
- Date: Wed, 30 Mar 2022 06:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 00:09:38.439104
- Title: STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction
- Title(参考訳): STRPM:高分解能映像予測のための時空間残留予測モデル
- Authors: Zheng Chang, Xinfeng Zhang, Shanshe Wang, Siwei Ma, and Wen Gao
- Abstract要約: 本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
- 参考スコア(独自算出の注目度): 78.129039340528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although many video prediction methods have obtained good performance in
low-resolution (64$\sim$128) videos, predictive models for high-resolution
(512$\sim$4K) videos have not been fully explored yet, which are more
meaningful due to the increasing demand for high-quality videos. Compared with
low-resolution videos, high-resolution videos contain richer appearance
(spatial) information and more complex motion (temporal) information. In this
paper, we propose a Spatiotemporal Residual Predictive Model (STRPM) for
high-resolution video prediction. On the one hand, we propose a Spatiotemporal
Encoding-Decoding Scheme to preserve more spatiotemporal information for
high-resolution videos. In this way, the appearance details for each frame can
be greatly preserved. On the other hand, we design a Residual Predictive Memory
(RPM) which focuses on modeling the spatiotemporal residual features (STRF)
between previous and future frames instead of the whole frame, which can
greatly help capture the complex motion information in high-resolution videos.
In addition, the proposed RPM can supervise the spatial encoder and temporal
encoder to extract different features in the spatial domain and the temporal
domain, respectively. Moreover, the proposed model is trained using generative
adversarial networks (GANs) with a learned perceptual loss (LP-loss) to improve
the perceptual quality of the predictions. Experimental results show that STRPM
can generate more satisfactory results compared with various existing methods.
- Abstract(参考訳): 多くのビデオ予測手法は低解像度 (64$\sim$128) ビデオで優れた性能を得たが、高解像度 (512$\sim$4K) ビデオの予測モデルは、まだ十分に検討されていない。
低解像度ビデオと比較すると、高解像度ビデオはよりリッチな外観(空間)情報とより複雑な動き(時間)情報を含んでいる。
本稿では,高解像度映像予測のための時空間残留予測モデル(STRPM)を提案する。
本研究では,高分解能映像の時空間情報を保存する時空間符号化復号方式を提案する。
このように、各フレームの外観詳細を大いに保存することができる。
一方、フレーム全体ではなく、前と将来のフレーム間の時空間残差特徴(STRF)をモデル化することに焦点を当てたResidual Predictive Memory (RPM) を設計し、高解像度ビデオにおける複雑な動き情報の収集に大きく貢献する。
さらに,提案したRPMは,空間領域と時間領域の異なる特徴を抽出するために,空間エンコーダと時間エンコーダを監督することができる。
さらに,学習した知覚損失 (lp-loss) を持つ生成的敵ネットワーク (gans) を用いて,予測の知覚的品質を改善するための学習モデルを提案する。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
関連論文リスト
- Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。
SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。
REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-25T17:59:26Z) - A Codec Information Assisted Framework for Efficient Compressed Video
Super-Resolution [15.690562510147766]
リカレントニューラルネットワークアーキテクチャを用いたビデオ超解法(VSR)は、長距離時間依存性の効率的なモデリングのため、有望なソリューションである。
圧縮ビデオの繰り返しVSRモデルの高速化と高速化を目的としたコーデック情報支援フレームワーク(CIAF)を提案する。
論文 参考訳(メタデータ) (2022-10-15T08:48:29Z) - STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction [78.129039340528]
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
論文 参考訳(メタデータ) (2022-06-09T09:49:04Z) - Look Back and Forth: Video Super-Resolution with Explicit Temporal
Difference Modeling [105.69197687940505]
本稿では,LR空間とHR空間における時間差の明示的モデル化の役割について検討する。
超解像結果をさらに高めるために、空間残留特徴を抽出するだけでなく、高周波領域における連続フレーム間の差も計算する。
論文 参考訳(メタデータ) (2022-04-14T17:07:33Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - A Novel Dual Dense Connection Network for Video Super-resolution [0.0]
ビデオ・スーパーレゾリューション(VSR)とは、対応する低解像度(LR)ビデオから高解像度(HR)ビデオの再構成を指す。
本稿では,高画質超解像(SR)を生成できる新しい二重高密度接続ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-05T12:21:29Z) - Video Rescaling Networks with Joint Optimization Strategies for
Downscaling and Upscaling [15.630742638440998]
結合層を持つ可逆ニューラルネットワークに基づく2つの共同最適化手法を提案する。
我々のLong Short-Term Memory Video Rescaling Network (LSTM-VRN)は、低解像度ビデオの時間情報を利用して、アップスケーリングに欠落する高周波情報の明示的な予測を形成する。
当社のマルチインプットマルチアウトプットビデオリスケーリングネットワーク(MIMO-VRN)は、ビデオフレームのグループを同時にダウンスケーリングおよびアップスケーリングするための新しい戦略を提案します。
論文 参考訳(メタデータ) (2021-03-27T09:35:38Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。