論文の概要: Video Creation by Demonstration
- arxiv url: http://arxiv.org/abs/2412.09551v1
- Date: Thu, 12 Dec 2024 18:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 15:57:57.281068
- Title: Video Creation by Demonstration
- Title(参考訳): デモによる映像創造
- Authors: Yihong Sun, Hao Zhou, Liangzhe Yuan, Jennifer J. Sun, Yandong Li, Xuhui Jia, Hartwig Adam, Bharath Hariharan, Long Zhao, Ting Liu,
- Abstract要約: 我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。
映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。
実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
- 参考スコア(独自算出の注目度): 59.389591010842636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore a novel video creation experience, namely Video Creation by Demonstration. Given a demonstration video and a context image from a different scene, we generate a physically plausible video that continues naturally from the context image and carries out the action concepts from the demonstration. To enable this capability, we present $\delta$-Diffusion, a self-supervised training approach that learns from unlabeled videos by conditional future frame prediction. Unlike most existing video generation controls that are based on explicit signals, we adopts the form of implicit latent control for maximal flexibility and expressiveness required by general videos. By leveraging a video foundation model with an appearance bottleneck design on top, we extract action latents from demonstration videos for conditioning the generation process with minimal appearance leakage. Empirically, $\delta$-Diffusion outperforms related baselines in terms of both human preference and large-scale machine evaluations, and demonstrates potentials towards interactive world simulation. Sampled video generation results are available at https://delta-diffusion.github.io/.
- Abstract(参考訳): Demonstrationによるビデオ作成という,新しいビデオ作成エクスペリエンスについて検討する。
実演映像と異なるシーンからの文脈映像が与えられた場合、実演映像から自然に続き、実演から行動概念を実行する物理的にもっともらしい映像を生成する。
この機能を実現するために、条件付き将来のフレーム予測によりラベルなしビデオから学習する自己教師付きトレーニングアプローチである$\delta$-Diffusionを提案する。
明示的な信号に基づく既存のビデオ生成制御とは異なり、私たちは一般的なビデオに必要な最大柔軟性と表現性のために暗黙的な潜在制御という形式を採用しています。
外観ボトルネック設計による映像基盤モデルを活用することで,映像から動作遅延を抽出し,生成過程を最小限の外観リークで調整する。
実証的に、$\delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回り、インタラクティブな世界シミュレーションへの可能性を示している。
サンプルビデオ生成結果はhttps://delta-diffusion.github.io/.com/で公開されている。
関連論文リスト
- Mobius: Text to Seamless Looping Video Generation via Latent Shift [50.04534295458244]
ユーザアノテーションを使わずにテキスト記述から直接シームレスにループするビデオを生成する新しい方法であるMobiusを提案する。
本手法では,事前学習したビデオ遅延拡散モデルを用いて,テキストプロンプトからループ映像を生成する。
論文 参考訳(メタデータ) (2025-02-27T17:33:51Z) - PlaySlot: Learning Inverse Latent Dynamics for Controllable Object-Centric Video Prediction and Planning [19.67005754615478]
PlaySlotはオブジェクト中心のビデオ予測モデルであり、未ラベルのビデオシーケンスからオブジェクト表現と潜在アクションを推論する。
PlaySlotは、ビデオのダイナミックスから推測できる潜在アクションで条件付けられた複数の可能な先物を生成することができる。
その結果,PlaySlotは,異なる環境における映像予測において,オブジェクト中心のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-02-11T14:50:10Z) - Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [54.21476271127356]
Divotは拡散駆動型ビデオトケナイザである。
我々は、ビデオからテキストへの自己回帰とテキストからビデオへの生成を通じてDivot-unaVicを提示する。
論文 参考訳(メタデータ) (2024-12-05T18:53:04Z) - Video In-context Learning: Autoregressive Transformers are Zero-Shot Video Imitators [46.40277880351059]
環境と相互作用するモデルのための新しいインタフェースとして視覚信号を活用することを検討する。
デモビデオからセマンティクスを推測し,そのセマンティクスを未知のシナリオに模倣する,ゼロショット機能を実現していることがわかった。
その結果,本モデルでは,デモビデオが提供する意味指導と正確に一致した高品質なビデオクリップを生成できることがわかった。
論文 参考訳(メタデータ) (2024-07-10T04:27:06Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models [40.73982918337828]
本稿では,bf BIVDiffと呼ばれるトレーニング不要な汎用ビデオ合成フレームワークを提案する。
具体的には、まず、フレームワイドビデオ生成に特定の画像拡散モデル(例えば、ControlNetとInstruct Pix2Pix)を使用し、その後、生成されたビデオ上でMixed Inversionを行い、最後に、反転潜時をビデオ拡散モデルに入力する。
論文 参考訳(メタデータ) (2023-12-05T14:56:55Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。