論文の概要: STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction
- arxiv url: http://arxiv.org/abs/2206.04381v1
- Date: Thu, 9 Jun 2022 09:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 23:15:54.770962
- Title: STIP: A SpatioTemporal Information-Preserving and Perception-Augmented
Model for High-Resolution Video Prediction
- Title(参考訳): STIP:高解像度映像予測のための時空間情報保存・知覚モデル
- Authors: Zheng Chang, Xinfeng Zhang, Shanshe Wang, Siwei Ma, and Wen Gao
- Abstract要約: 本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
提案モデルは,特徴抽出と状態遷移中の映像の時間的情報を保存することを目的としている。
実験結果から,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることが示唆された。
- 参考スコア(独自算出の注目度): 78.129039340528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although significant achievements have been achieved by recurrent neural
network (RNN) based video prediction methods, their performance in datasets
with high resolutions is still far from satisfactory because of the information
loss problem and the perception-insensitive mean square error (MSE) based loss
functions. In this paper, we propose a Spatiotemporal Information-Preserving
and Perception-Augmented Model (STIP) to solve the above two problems. To solve
the information loss problem, the proposed model aims to preserve the
spatiotemporal information for videos during the feature extraction and the
state transitions, respectively. Firstly, a Multi-Grained Spatiotemporal
Auto-Encoder (MGST-AE) is designed based on the X-Net structure. The proposed
MGST-AE can help the decoders recall multi-grained information from the
encoders in both the temporal and spatial domains. In this way, more
spatiotemporal information can be preserved during the feature extraction for
high-resolution videos. Secondly, a Spatiotemporal Gated Recurrent Unit (STGRU)
is designed based on the standard Gated Recurrent Unit (GRU) structure, which
can efficiently preserve spatiotemporal information during the state
transitions. The proposed STGRU can achieve more satisfactory performance with
a much lower computation load compared with the popular Long Short-Term (LSTM)
based predictive memories. Furthermore, to improve the traditional MSE loss
functions, a Learned Perceptual Loss (LP-loss) is further designed based on the
Generative Adversarial Networks (GANs), which can help obtain a satisfactory
trade-off between the objective quality and the perceptual quality.
Experimental results show that the proposed STIP can predict videos with more
satisfactory visual quality compared with a variety of state-of-the-art
methods. Source code has been available at
\url{https://github.com/ZhengChang467/STIPHR}.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)ベースのビデオ予測手法によって大きな成果が得られたが、情報損失問題や知覚不感な平均二乗誤差(MSE)ベースの損失関数のため、高解像度のデータセットのパフォーマンスは相変わらず十分ではない。
本稿では、上記の2つの問題を解決するために、時空間情報保存・知覚拡張モデル(STIP)を提案する。
情報損失問題を解決するため,提案モデルでは,特徴抽出時の映像の時空間情報と状態遷移時の時空間情報をそれぞれ保存することを目的としている。
第一に、X-Net構造に基づいて、多点時空間オートエンコーダ(MGST-AE)を設計する。
提案したMGST-AEは、デコーダが時間領域と空間領域の両方のエンコーダから多粒度情報をリコールするのに役立つ。
このように、高解像度ビデオの特徴抽出中に、より多くの時空間情報を保存することができる。
第二に、時空間Gated Recurrent Unit (STGRU) は標準Gated Recurrent Unit (GRU) 構造に基づいて設計されており、状態遷移時に時空間情報を効率的に保存することができる。
提案したSTGRUは、LSTM(Long Short-Term)ベースの予測メモリと比較して、計算負荷がはるかに少ないため、より良好な性能が得られる。
さらに、従来のmse損失関数を改善するために、学習された知覚損失(lp-loss)は、客観的品質と知覚品質との良好なトレードオフを得るのに役立つジェネレーティブ・逆ネットワーク(gans)に基づいてさらに設計されている。
実験の結果,提案したSTIPは,様々な最先端手法と比較して,より良好な映像品質で映像を予測できることがわかった。
ソースコードは \url{https://github.com/zhengchang467/stiphr} で入手できる。
関連論文リスト
- Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - Sliding Window Recurrent Network for Efficient Video Super-Resolution [0.0]
ビデオ超解像(VSR)は、高解像度のフレームを低解像度の入力列から復元するタスクである。
本研究では,テキストスライディングウィンドウをベースとしたリカレントネットワーク(SWRN)を提案する。
筆者らはREDSデータセットを用いて,提案手法をモバイルデバイスに適用し,視覚的に快適な結果が得られることを示した。
論文 参考訳(メタデータ) (2022-08-24T15:23:44Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [14.450608917588497]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - HDNet: High-resolution Dual-domain Learning for Spectral Compressive
Imaging [138.04956118993934]
HSI再構成のための高分解能デュアルドメイン学習ネットワーク(HDNet)を提案する。
一方、高効率な特徴融合によるHR空間スペクトルアテンションモジュールは、連続的かつ微細な画素レベルの特徴を提供する。
一方、HSI再構成のために周波数領域学習(FDL)を導入し、周波数領域の差を狭める。
論文 参考訳(メタデータ) (2022-03-04T06:37:45Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z) - iSeeBetter: Spatio-temporal video super-resolution using recurrent
generative back-projection networks [0.0]
ビデオ超解像(VSR)に対する新しいGANに基づく構造時間的アプローチiSeeBetterを提案する。
iSeeBetterは、リカレントバックプロジェクションネットワークをジェネレータとして使用して、現在のフレームと隣接するフレームから時空間情報を抽出する。
以上の結果から,iSeeBetterはVSRの忠実度に優れ,最先端の性能に勝ることを示した。
論文 参考訳(メタデータ) (2020-06-13T01:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。