論文の概要: Learning Semantic-Aware Dynamics for Video Prediction
- arxiv url: http://arxiv.org/abs/2104.09762v1
- Date: Tue, 20 Apr 2021 05:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:40:30.984963
- Title: Learning Semantic-Aware Dynamics for Video Prediction
- Title(参考訳): 映像予測のための学習意味認識ダイナミクス
- Authors: Xinzhu Bei, Yanchao Yang, Stefano Soatto
- Abstract要約: 非閉塞を明示的にモデル化して,映像フレームを予測するためのアーキテクチャとトレーニング方式を提案する。
シーンの外観は、コ・ヴィジュアブル領域の予測された動きを用いて過去のフレームから歪められる。
- 参考スコア(独自算出の注目度): 68.04359321855702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an architecture and training scheme to predict video frames by
explicitly modeling dis-occlusions and capturing the evolution of semantically
consistent regions in the video. The scene layout (semantic map) and motion
(optical flow) are decomposed into layers, which are predicted and fused with
their context to generate future layouts and motions. The appearance of the
scene is warped from past frames using the predicted motion in co-visible
regions; dis-occluded regions are synthesized with content-aware inpainting
utilizing the predicted scene layout. The result is a predictive model that
explicitly represents objects and learns their class-specific motion, which we
evaluate on video prediction benchmarks.
- Abstract(参考訳): 本稿では,ビデオの非閉塞性を明示的にモデル化し,意味的に一貫した領域の進化を捉えることによって,映像フレームの予測を行うアーキテクチャとトレーニング手法を提案する。
シーンレイアウト(セマンティックマップ)とモーション(オプティカルフロー)はレイヤに分解され、将来のレイアウトや動きを生成するためにそのコンテキストと予測および融合される。
シーンの外観は、近視領域で予測された動きを用いて過去のフレームから歪められ、非閉塞領域は、予測されたシーンレイアウトを利用してコンテンツ対応の塗装で合成される。
その結果、オブジェクトを明示的に表現し、クラス固有の動作を学習する予測モデルとなり、ビデオ予測ベンチマークで評価する。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z) - Stochastic Video Prediction with Structure and Motion [14.424465835834042]
本稿では,映像観察を静的・動的成分に分解する手法を提案する。
前景と背景の変化の分布を別々に学習することで、シーンを静的と動的に分解することができる。
我々の実験は、遠心構造と動きが映像の予測に役立ち、複雑な運転シナリオにおける将来の予測に繋がることを示した。
論文 参考訳(メタデータ) (2022-03-20T11:29:46Z) - Wide and Narrow: Video Prediction from Context and Motion [54.21624227408727]
本稿では,これらの相補的属性を統合し,深層ネットワークを通した複雑なピクセルのダイナミックスを予測するフレームワークを提案する。
本研究では,非局所的な近隣表現を集約し,過去のフレーム上の文脈情報を保存するグローバルなコンテキスト伝搬ネットワークを提案する。
また,移動オブジェクトの動作をメモリに格納することで,適応的なフィルタカーネルを生成するローカルフィルタメモリネットワークを考案した。
論文 参考訳(メタデータ) (2021-10-22T04:35:58Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。