論文の概要: WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction
- arxiv url: http://arxiv.org/abs/2211.14308v3
- Date: Tue, 29 Aug 2023 07:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 19:08:16.370400
- Title: WALDO: Future Video Synthesis using Object Layer Decomposition and
Parametric Flow Prediction
- Title(参考訳): WALDO:オブジェクト層分解とパラメトリックフロー予測を用いた将来のビデオ合成
- Authors: Guillaume Le Moing and Jean Ponce and Cordelia Schmid
- Abstract要約: WALDOは、過去のビデオフレームを予測するための新しいアプローチである。
個々の画像は、オブジェクトマスクと小さなコントロールポイントのセットを組み合わせた複数の層に分解される。
レイヤ構造は、各ビデオ内のすべてのフレーム間で共有され、フレーム間の密接な接続を構築する。
- 参考スコア(独自算出の注目度): 82.79642869586587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents WALDO (WArping Layer-Decomposed Objects), a novel
approach to the prediction of future video frames from past ones. Individual
images are decomposed into multiple layers combining object masks and a small
set of control points. The layer structure is shared across all frames in each
video to build dense inter-frame connections. Complex scene motions are modeled
by combining parametric geometric transformations associated with individual
layers, and video synthesis is broken down into discovering the layers
associated with past frames, predicting the corresponding transformations for
upcoming ones and warping the associated object regions accordingly, and
filling in the remaining image parts. Extensive experiments on multiple
benchmarks including urban videos (Cityscapes and KITTI) and videos featuring
nonrigid motions (UCF-Sports and H3.6M), show that our method consistently
outperforms the state of the art by a significant margin in every case. Code,
pretrained models, and video samples synthesized by our approach can be found
in the project webpage https://16lemoing.github.io/waldo.
- Abstract(参考訳): 本稿では,過去の映像フレームの予測手法であるwaldo(warping layer-decomposed objects)について述べる。
個々の画像は、オブジェクトマスクと小さなコントロールポイントを組み合わせた複数の層に分解される。
レイヤー構造は各ビデオの全てのフレームで共有され、フレーム間の密接な接続を構築する。
個々の層に関連付けられたパラメトリックな幾何学的変換を組み合わせることで、複雑なシーンの動作をモデル化し、ビデオ合成を過去のフレームに関連付けられた層を発見し、対応する変換を予測し、それに従って関連オブジェクト領域を反動させ、残りの画像部分を埋め込む。
都市ビデオ (cityscapes と kitti) や非リジッドモーション (ucf-sports と h3.6m) を特徴とするビデオなど,複数のベンチマークで広範な実験を行った結果,この手法は,すべてのケースにおいて,芸術の状態を一貫して有意なマージンで上回っていることがわかった。
私たちのアプローチで合成されたコード、事前トレーニングされたモデル、ビデオサンプルは、プロジェクトwebページhttps://16lemoing.github.io/waldoで見ることができる。
関連論文リスト
- Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文 参考訳(メタデータ) (2024-03-21T17:57:31Z) - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - CoDeF: Content Deformation Fields for Temporally Consistent Video
Processing [89.49585127724941]
CoDeFは、標準コンテンツフィールドと時間変形フィールドからなる新しいタイプのビデオ表現である。
実験により,CoDeFは,映像から映像への変換とキーポイント検出をキーポイントトラッキングに,トレーニングなしで持ち上げることができることを示した。
論文 参考訳(メタデータ) (2023-08-15T17:59:56Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Unsupervised Video Interpolation by Learning Multilayered 2.5D Motion
Fields [75.81417944207806]
本稿では,ビデオフレーム学習において,単一のビデオのみを必要とする自己教師型アプローチを提案する。
時間変化運動場上に定義された通常の微分可能方程式(ODE)を解くことにより,映像の動きをパラメータ化する。
この暗黙的な神経表現は、ビデオを時空間連続体として学習し、任意の時間分解能でフレーム時間連続体を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:17:05Z) - Layered Neural Atlases for Consistent Video Editing [37.69447642502351]
本稿では,入力映像を層状2次元アトラスに分解する手法を提案する。
ビデオの各画素について,各アトラスの対応する2次元座標を推定する。
我々は、アトラスを解釈可能で意味論的に設計し、アトラス領域での簡単かつ直感的な編集を容易にする。
論文 参考訳(メタデータ) (2021-09-23T14:58:59Z) - Street-view Panoramic Video Synthesis from a Single Satellite Image [92.26826861266784]
時間的および幾何学的に一貫したストリートビューパノラマビデオの両方を合成する新しい方法を提示する。
既存のクロスビュー合成アプローチは画像に重点を置いているが、そのような場合のビデオ合成はまだ十分な注目を集めていない。
論文 参考訳(メタデータ) (2020-12-11T20:22:38Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。