論文の概要: CAGE: Unsupervised Visual Composition and Animation for Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2403.14368v2
- Date: Mon, 24 Mar 2025 14:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:30:45.030288
- Title: CAGE: Unsupervised Visual Composition and Animation for Controllable Video Generation
- Title(参考訳): CAGE:制御可能なビデオ生成のための教師なしビジュアルコンポジションとアニメーション
- Authors: Aram Davtyan, Sepehr Sameni, Björn Ommer, Paolo Favaro,
- Abstract要約: 制御可能で合成可能なビデオ生成のための教師なしのアプローチを導入する。
私たちのモデルは、注釈のないビデオのデータセットをスクラッチからトレーニングしています。
空間と時間の所望の場所にオブジェクトを配置することで、可愛らしい斬新なシーンを作成し、オブジェクトをアニメーション化することができる。
- 参考スコア(独自算出の注目度): 42.475807996071175
- License:
- Abstract: The field of video generation has expanded significantly in recent years, with controllable and compositional video generation garnering considerable interest. Most methods rely on leveraging annotations such as text, objects' bounding boxes, and motion cues, which require substantial human effort and thus limit their scalability. In contrast, we address the challenge of controllable and compositional video generation without any annotations by introducing a novel unsupervised approach. Our model is trained from scratch on a dataset of unannotated videos. At inference time, it can compose plausible novel scenes and animate objects by placing object parts at the desired locations in space and time. The core innovation of our method lies in the unified control format and the training process, where video generation is conditioned on a randomly selected subset of pre-trained self-supervised local features. This conditioning compels the model to learn how to inpaint the missing information in the video both spatially and temporally, thereby learning the inherent compositionality of a scene and the dynamics of moving objects. The abstraction level and the imposed invariance of the conditioning input to minor visual perturbations enable control over object motion by simply using the same features at all the desired future locations. We call our model CAGE, which stands for visual Composition and Animation for video GEneration. We conduct extensive experiments to validate the effectiveness of CAGE across various scenarios, demonstrating its capability to accurately follow the control and to generate high-quality videos that exhibit coherent scene composition and realistic animation.
- Abstract(参考訳): 近年、映像生成の分野は大幅に拡大し、制御可能で構成可能な映像生成が注目されている。
ほとんどのメソッドは、テキスト、オブジェクトのバウンディングボックス、モーションキューなどのアノテーションを活用することに依存しており、これはかなりの人的労力を要するため、スケーラビリティが制限される。
対照的に、新規な教師なしアプローチを導入することにより、アノテーションを使わずに、制御可能で構成可能なビデオ生成の課題に対処する。
私たちのモデルは、注釈のないビデオのデータセットをスクラッチからトレーニングしています。
推測時には、対象部分を所望の場所、空間、時間に配置することで、プラウチブルなノベルシーンを構成し、オブジェクトをアニメーション化することができる。
本手法の中核となる革新は、事前学習したローカル特徴のランダムに選択されたサブセットにビデオ生成を条件付ける統一制御形式とトレーニングプロセスである。
この条件付けは、映像中の欠落した情報を空間的にも時間的にもインペイントする方法を学ぶためにモデルを補完し、シーン固有の構成性や移動物体のダイナミックスを学ぶ。
最小の視覚摂動に対する条件付け入力の抽象レベルと強制的不変性は、目的のすべての将来の場所で同じ特徴を単純に使用することによって、オブジェクトの動きを制御できる。
我々は、ビデオGEnerationのためのビジュアルコンポジションとアニメーションのモデルCAGEと呼ぶ。
様々なシナリオにおいてCAGEの有効性を検証し、その制御を正確に追従し、コヒーレントなシーン構成とリアルなアニメーションを示す高品質なビデオを生成する能力を示す。
関連論文リスト
- Generative Video Propagation [87.15843701018099]
我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。
実験結果は,様々なビデオタスクにおいて,我々のモデルが先行する性能を示す。
論文 参考訳(メタデータ) (2024-12-27T17:42:29Z) - Switch-a-View: Few-Shot View Selection Learned from Edited Videos [71.01549400773197]
ハウツービデオを作成する際に,各時点に表示すべき視点を自動的に選択するモデルであるSwitch-a-Viewを導入する。
このアプローチの鍵となる洞察は、ラベルのない、しかし、人間が編集したビデオサンプルから、そのようなモデルをトレーニングする方法です。
論文 参考訳(メタデータ) (2024-12-24T12:16:43Z) - Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。
映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。
実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文 参考訳(メタデータ) (2024-12-12T18:41:20Z) - Grounding Video Models to Actions through Goal Conditioned Exploration [29.050431676226115]
本稿では,エージェントが複雑なタスクを解くために,映像誘導とトラジェクトリレベルのアクション生成を利用するフレームワークを提案する。
当社のアプローチが,専門家によるデモンストレーションでトレーニングされた,複数の行動クローンベースラインと同等であるか,あるいは超越しているかを示します。
論文 参考訳(メタデータ) (2024-11-11T18:43:44Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。