論文の概要: Photo-Realistic Video Prediction on Natural Videos of Largely Changing
Frames
- arxiv url: http://arxiv.org/abs/2003.08635v1
- Date: Thu, 19 Mar 2020 09:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 04:52:38.624121
- Title: Photo-Realistic Video Prediction on Natural Videos of Largely Changing
Frames
- Title(参考訳): 大きく変化するフレームの自然映像におけるフォトリアリスティック映像予測
- Authors: Osamu Shouno
- Abstract要約: 本研究では,各層が空間分解能の異なる将来の状態を予測できる階層型ネットワークを提案する。
我々は,車載カメラで捉えた自然な映像データセットを用いて,敵対的・知覚的損失関数を用いてモデルを訓練した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep learning have significantly improved performance of
video prediction. However, state-of-the-art methods still suffer from
blurriness and distortions in their future predictions, especially when there
are large motions between frames. To address these issues, we propose a deep
residual network with the hierarchical architecture where each layer makes a
prediction of future state at different spatial resolution, and these
predictions of different layers are merged via top-down connections to generate
future frames. We trained our model with adversarial and perceptual loss
functions, and evaluated it on a natural video dataset captured by car-mounted
cameras. Our model quantitatively outperforms state-of-the-art baselines in
future frame prediction on video sequences of both largely and slightly
changing frames. Furthermore, our model generates future frames with finer
details and textures that are perceptually more realistic than the baselines,
especially under fast camera motions.
- Abstract(参考訳): 近年の深層学習は映像予測の性能を大幅に向上させた。
しかし、最先端の手法は、特にフレーム間の大きな動きがある場合、将来の予測においてぼやけや歪みに未だに苦しんでいる。
これらの問題に対処するために,各層が異なる空間分解能で将来の状態を予測し,これら異なる層の予測をトップダウン接続でマージして将来のフレームを生成する階層型ネットワークを提案する。
我々は,車載カメラで撮影した自然映像データセットを用いて,敵対的および知覚的損失関数を用いてモデルの評価を行った。
本モデルでは,大局的および小局的に変化するフレームの映像系列に対する将来のフレーム予測において,最先端のベースラインを定量的に上回る。
さらに,本モデルは,特に高速カメラ動作下では,ベースラインよりも知覚的に現実的な細部やテクスチャを備えた将来のフレームを生成する。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Video Prediction at Multiple Scales with Hierarchical Recurrent Networks [24.536256844130996]
本稿では,異なるレベルの粒度の将来の結果を同時に予測できる新しい映像予測モデルを提案する。
空間的および時間的ダウンサンプリングを組み合わせることで、MSPredは長い時間的地平線上での抽象表現を効率的に予測することができる。
実験では,提案モデルが将来の映像フレームだけでなく,様々なシナリオにおける他の表現を正確に予測できることを実証した。
論文 参考訳(メタデータ) (2022-03-17T13:08:28Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z) - Learning Semantic-Aware Dynamics for Video Prediction [68.04359321855702]
非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
論文 参考訳(メタデータ) (2021-04-20T05:00:24Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。