論文の概要: Multi-object Video Generation from Single Frame Layouts
- arxiv url: http://arxiv.org/abs/2305.03983v2
- Date: Tue, 23 May 2023 15:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 23:34:34.483429
- Title: Multi-object Video Generation from Single Frame Layouts
- Title(参考訳): 単一フレームレイアウトによるマルチオブジェクトビデオ生成
- Authors: Yang Wu, Zhibin Liu, Hefeng Wu, Liang Lin
- Abstract要約: 本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
- 参考スコア(独自算出の注目度): 84.55806837855846
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we study video synthesis with emphasis on simplifying the
generation conditions. Most existing video synthesis models or datasets are
designed to address complex motions of a single object, lacking the ability of
comprehensively understanding the spatio-temporal relationships among multiple
objects. Besides, current methods are usually conditioned on intricate
annotations (e.g. video segmentations) to generate new videos, being
fundamentally less practical. These motivate us to generate multi-object videos
conditioning exclusively on object layouts from a single frame. To solve above
challenges and inspired by recent research on image generation from layouts, we
have proposed a novel video generative framework capable of synthesizing global
scenes with local objects, via implicit neural representations and layout
motion self-inference. Our framework is a non-trivial adaptation from image
generation methods, and is new to this field. In addition, our model has been
evaluated on two widely-used video recognition benchmarks, demonstrating
effectiveness compared to the baseline model.
- Abstract(参考訳): 本稿では,生成条件の簡素化を重視した映像合成について検討する。
既存のビデオ合成モデルやデータセットは、単一のオブジェクトの複雑な動きに対処するために設計されており、複数のオブジェクト間の時空間関係を包括的に理解する能力がない。
また、現在の手法は通常、新しいビデオを生成するために複雑なアノテーション(例えばビデオセグメンテーション)で条件付けされる。
これにより、単一のフレームからオブジェクトレイアウトにのみ依存するマルチオブジェクトビデオを生成することができる。
上記の課題を解決し,レイアウトからの画像生成に関する最近の研究に触発された我々は,暗黙のニューラル表現とレイアウト動作自己推論を用いて,グローバルシーンを局所オブジェクトに合成できる新しいビデオ生成フレームワークを提案する。
我々のフレームワークは画像生成手法からの非自明な適応であり、この分野では新しいものである。
さらに,2つの広範に使用されているビデオ認識ベンチマークを用いて評価を行い,ベースラインモデルと比較して有効性を示した。
関連論文リスト
- TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models [40.73982918337828]
本稿では,bf BIVDiffと呼ばれるトレーニング不要な汎用ビデオ合成フレームワークを提案する。
具体的には、まず、フレームワイドビデオ生成に特定の画像拡散モデル(例えば、ControlNetとInstruct Pix2Pix)を使用し、その後、生成されたビデオ上でMixed Inversionを行い、最後に、反転潜時をビデオ拡散モデルに入力する。
論文 参考訳(メタデータ) (2023-12-05T14:56:55Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。