論文の概要: Enabling Visual Composition and Animation in Unsupervised Video Generation
- arxiv url: http://arxiv.org/abs/2403.14368v1
- Date: Thu, 21 Mar 2024 12:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:18:45.505826
- Title: Enabling Visual Composition and Animation in Unsupervised Video Generation
- Title(参考訳): 教師なし映像生成における映像合成とアニメーションの実現
- Authors: Aram Davtyan, Sepehr Sameni, Björn Ommer, Paolo Favaro,
- Abstract要約: 我々は、ビデオGEnerationのビジュアルコンポジションとアニメーションのために、私たちのモデルCAGEを呼ぶ。
我々は様々な環境でCAGEの機能を示す一連の実験を行った。
- 参考スコア(独自算出の注目度): 42.475807996071175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we propose a novel method for unsupervised controllable video generation. Once trained on a dataset of unannotated videos, at inference our model is capable of both composing scenes of predefined object parts and animating them in a plausible and controlled way. This is achieved by conditioning video generation on a randomly selected subset of local pre-trained self-supervised features during training. We call our model CAGE for visual Composition and Animation for video GEneration. We conduct a series of experiments to demonstrate capabilities of CAGE in various settings. Project website: https://araachie.github.io/cage.
- Abstract(参考訳): 本研究では,教師なし制御不能な映像生成のための新しい手法を提案する。
一度、アノテーションのないビデオのデータセットでトレーニングされたら、そのモデルは事前に定義されたオブジェクト部品のシーンを合成し、それらを可視かつ制御可能な方法でアニメーション化できる。
これは、トレーニング中に局所的に訓練済みの自己教師付き特徴のランダムに選択されたサブセットにビデオ生成を条件付けることで達成される。
我々は、ビデオGEnerationのビジュアルコンポジションとアニメーションのために、私たちのモデルCAGEを呼ぶ。
我々は様々な環境でCAGEの機能を示す一連の実験を行った。
プロジェクトウェブサイト: https://araachie.github.io/cage.com
関連論文リスト
- Generative Video Propagation [87.15843701018099]
我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。
実験結果は,様々なビデオタスクにおいて,我々のモデルが先行する性能を示す。
論文 参考訳(メタデータ) (2024-12-27T17:42:29Z) - Switch-a-View: Few-Shot View Selection Learned from Edited Videos [71.01549400773197]
ハウツービデオを作成する際に,各時点に表示すべき視点を自動的に選択するモデルであるSwitch-a-Viewを導入する。
このアプローチの鍵となる洞察は、ラベルのない、しかし、人間が編集したビデオサンプルから、そのようなモデルをトレーニングする方法です。
論文 参考訳(メタデータ) (2024-12-24T12:16:43Z) - Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。
映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。
実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文 参考訳(メタデータ) (2024-12-12T18:41:20Z) - Grounding Video Models to Actions through Goal Conditioned Exploration [29.050431676226115]
本稿では,エージェントが複雑なタスクを解くために,映像誘導とトラジェクトリレベルのアクション生成を利用するフレームワークを提案する。
当社のアプローチが,専門家によるデモンストレーションでトレーニングされた,複数の行動クローンベースラインと同等であるか,あるいは超越しているかを示します。
論文 参考訳(メタデータ) (2024-11-11T18:43:44Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。