論文の概要: Multi-object Video Generation from Single Frame Layouts
- arxiv url: http://arxiv.org/abs/2305.03983v2
- Date: Tue, 23 May 2023 15:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 23:34:34.483429
- Title: Multi-object Video Generation from Single Frame Layouts
- Title(参考訳): 単一フレームレイアウトによるマルチオブジェクトビデオ生成
- Authors: Yang Wu, Zhibin Liu, Hefeng Wu, Liang Lin
- Abstract要約: 本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
- 参考スコア(独自算出の注目度): 84.55806837855846
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we study video synthesis with emphasis on simplifying the
generation conditions. Most existing video synthesis models or datasets are
designed to address complex motions of a single object, lacking the ability of
comprehensively understanding the spatio-temporal relationships among multiple
objects. Besides, current methods are usually conditioned on intricate
annotations (e.g. video segmentations) to generate new videos, being
fundamentally less practical. These motivate us to generate multi-object videos
conditioning exclusively on object layouts from a single frame. To solve above
challenges and inspired by recent research on image generation from layouts, we
have proposed a novel video generative framework capable of synthesizing global
scenes with local objects, via implicit neural representations and layout
motion self-inference. Our framework is a non-trivial adaptation from image
generation methods, and is new to this field. In addition, our model has been
evaluated on two widely-used video recognition benchmarks, demonstrating
effectiveness compared to the baseline model.
- Abstract(参考訳): 本稿では,生成条件の簡素化を重視した映像合成について検討する。
既存のビデオ合成モデルやデータセットは、単一のオブジェクトの複雑な動きに対処するために設計されており、複数のオブジェクト間の時空間関係を包括的に理解する能力がない。
また、現在の手法は通常、新しいビデオを生成するために複雑なアノテーション(例えばビデオセグメンテーション)で条件付けされる。
これにより、単一のフレームからオブジェクトレイアウトにのみ依存するマルチオブジェクトビデオを生成することができる。
上記の課題を解決し,レイアウトからの画像生成に関する最近の研究に触発された我々は,暗黙のニューラル表現とレイアウト動作自己推論を用いて,グローバルシーンを局所オブジェクトに合成できる新しいビデオ生成フレームワークを提案する。
我々のフレームワークは画像生成手法からの非自明な適応であり、この分野では新しいものである。
さらに,2つの広範に使用されているビデオ認識ベンチマークを用いて評価を行い,ベースラインモデルと比較して有効性を示した。
関連論文リスト
- Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - Generative Video Propagation [87.15843701018099]
我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。
実験結果は,様々なビデオタスクにおいて,我々のモデルが先行する性能を示す。
論文 参考訳(メタデータ) (2024-12-27T17:42:29Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。