論文の概要: Generating Long Videos of Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2206.03429v1
- Date: Tue, 7 Jun 2022 16:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 14:18:19.460997
- Title: Generating Long Videos of Dynamic Scenes
- Title(参考訳): ダイナミックシーンのロングビデオの生成
- Authors: Tim Brooks, Janne Hellsten, Miika Aittala, Ting-Chun Wang, Timo Aila,
Jaakko Lehtinen, Ming-Yu Liu, Alexei A. Efros, Tero Karras
- Abstract要約: 本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
- 参考スコア(独自算出の注目度): 66.56925105992472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a video generation model that accurately reproduces object motion,
changes in camera viewpoint, and new content that arises over time. Existing
video generation methods often fail to produce new content as a function of
time while maintaining consistencies expected in real environments, such as
plausible dynamics and object persistence. A common failure case is for content
to never change due to over-reliance on inductive biases to provide temporal
consistency, such as a single latent code that dictates content for the entire
video. On the other extreme, without long-term consistency, generated videos
may morph unrealistically between different scenes. To address these
limitations, we prioritize the time axis by redesigning the temporal latent
representation and learning long-term consistency from data by training on
longer videos. To this end, we leverage a two-phase training strategy, where we
separately train using longer videos at a low resolution and shorter videos at
a high resolution. To evaluate the capabilities of our model, we introduce two
new benchmark datasets with explicit focus on long-term temporal dynamics.
- Abstract(参考訳): 本稿では,物体の動きを正確に再現する映像生成モデル,カメラ視点の変化,時間とともに発生する新たなコンテンツについて述べる。
既存のビデオ生成手法は、しばしば時間の関数として新しいコンテンツを生成するのに失敗するが、現実の環境(例えば、可算なダイナミクスやオブジェクトの永続化など)で期待されているコンピテンシーを維持している。
一般的な障害ケースは、ビデオ全体のコンテンツを決定する単一の潜在コードなど、インダクティブバイアスの過度な依存によって、コンテンツが決して変わることはない、というものです。
一方、長期的な一貫性がなければ、生成されたビデオは異なるシーン間で非現実的に変化する可能性がある。
これらの制限に対処するために,時間的潜在表現を再設計し,長いビデオのトレーニングによってデータから長期的な一貫性を学ぶことにより,時間軸を優先する。
この目的のために,我々は2段階のトレーニング戦略を活用し,より長い動画を低解像度で,より短い動画を高解像度で個別にトレーニングする。
本モデルの有効性を評価するため,長期時間変動に着目したベンチマークデータセットを2つ導入した。
関連論文リスト
- M3T: Multi-Scale Memory Matching for Video Object Segmentation and
Tracking [36.87237664751979]
本稿では,上記の課題を体系的に解析し,対処することを目的とした,DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、映像をクリップに分割し、タイムコードメモリを用いてコンテキストを伝播することにより、長いビデオのオンライン推論を可能にする。
本稿では、短いクリップ長と学習時間符号化によるメモリ長が、最先端(SoTA)の性能を達成する上で重要な設計選択であることを示す。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。