論文の概要: Enabling Visual Composition and Animation in Unsupervised Video Generation
- arxiv url: http://arxiv.org/abs/2403.14368v1
- Date: Thu, 21 Mar 2024 12:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:18:45.505826
- Title: Enabling Visual Composition and Animation in Unsupervised Video Generation
- Title(参考訳): 教師なし映像生成における映像合成とアニメーションの実現
- Authors: Aram Davtyan, Sepehr Sameni, Björn Ommer, Paolo Favaro,
- Abstract要約: 我々は、ビデオGEnerationのビジュアルコンポジションとアニメーションのために、私たちのモデルCAGEを呼ぶ。
我々は様々な環境でCAGEの機能を示す一連の実験を行った。
- 参考スコア(独自算出の注目度): 42.475807996071175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we propose a novel method for unsupervised controllable video generation. Once trained on a dataset of unannotated videos, at inference our model is capable of both composing scenes of predefined object parts and animating them in a plausible and controlled way. This is achieved by conditioning video generation on a randomly selected subset of local pre-trained self-supervised features during training. We call our model CAGE for visual Composition and Animation for video GEneration. We conduct a series of experiments to demonstrate capabilities of CAGE in various settings. Project website: https://araachie.github.io/cage.
- Abstract(参考訳): 本研究では,教師なし制御不能な映像生成のための新しい手法を提案する。
一度、アノテーションのないビデオのデータセットでトレーニングされたら、そのモデルは事前に定義されたオブジェクト部品のシーンを合成し、それらを可視かつ制御可能な方法でアニメーション化できる。
これは、トレーニング中に局所的に訓練済みの自己教師付き特徴のランダムに選択されたサブセットにビデオ生成を条件付けることで達成される。
我々は、ビデオGEnerationのビジュアルコンポジションとアニメーションのために、私たちのモデルCAGEを呼ぶ。
我々は様々な環境でCAGEの機能を示す一連の実験を行った。
プロジェクトウェブサイト: https://araachie.github.io/cage.com
関連論文リスト
- Grounding Video Models to Actions through Goal Conditioned Exploration [29.050431676226115]
本稿では,エージェントが複雑なタスクを解くために,映像誘導とトラジェクトリレベルのアクション生成を利用するフレームワークを提案する。
当社のアプローチが,専門家によるデモンストレーションでトレーニングされた,複数の行動クローンベースラインと同等であるか,あるいは超越しているかを示します。
論文 参考訳(メタデータ) (2024-11-11T18:43:44Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - InfiniteNature-Zero: Learning Perpetual View Generation of Natural
Scenes from Single Images [83.37640073416749]
本研究では,1つの視点から自然シーンのフライスルー映像を学習する手法を提案する。
この能力は、カメラのポーズやシーンの複数のビューを必要とせずに、1枚の写真から学習される。
論文 参考訳(メタデータ) (2022-07-22T15:41:06Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。