論文の概要: VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.19645v2
- Date: Mon, 30 Dec 2024 02:50:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 12:42:28.401835
- Title: VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models
- Title(参考訳): VideoMaker: ビデオ拡散モデルの本質的な力によるゼロショットカスタマイズビデオ生成
- Authors: Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li,
- Abstract要約: ビデオ拡散モデル(VDM)は本質的に被写体の特徴を抽出し注入する力を持っている。
高品質なゼロショットカスタマイズビデオ生成を実現するために,VDM固有の力を利用する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 50.45115303046294
- License:
- Abstract: Zero-shot customized video generation has gained significant attention due to its substantial application potential. Existing methods rely on additional models to extract and inject reference subject features, assuming that the Video Diffusion Model (VDM) alone is insufficient for zero-shot customized video generation. However, these methods often struggle to maintain consistent subject appearance due to suboptimal feature extraction and injection techniques. In this paper, we reveal that VDM inherently possesses the force to extract and inject subject features. Departing from previous heuristic approaches, we introduce a novel framework that leverages VDM's inherent force to enable high-quality zero-shot customized video generation. Specifically, for feature extraction, we directly input reference images into VDM and use its intrinsic feature extraction process, which not only provides fine-grained features but also significantly aligns with VDM's pre-trained knowledge. For feature injection, we devise an innovative bidirectional interaction between subject features and generated content through spatial self-attention within VDM, ensuring that VDM has better subject fidelity while maintaining the diversity of the generated video. Experiments on both customized human and object video generation validate the effectiveness of our framework.
- Abstract(参考訳): ゼロショットでカスタマイズされたビデオ生成は、そのアプリケーションの可能性から大きな注目を集めている。
既存の手法は、ビデオ拡散モデル(VDM)だけではゼロショットのカスタマイズビデオ生成に不十分であるとして、参照対象の特徴を抽出し注入するための追加モデルに依存している。
しかし,これらの手法は特徴抽出と注入技術により,一貫した主観的外観を維持するのに苦慮することが多い。
本稿では, VDMが主観的特徴を抽出し注入する力を持っていることを明らかにした。
従来のヒューリスティックなアプローチとは別に,VDM固有の力を活用して高品質なゼロショットカスタマイズビデオ生成を実現する新しいフレームワークを導入する。
具体的には、特徴抽出のために、VDMに参照画像を直接入力し、その固有の特徴抽出プロセスを使用する。
特徴注入のために,VDM内の空間的自己注意を通して,映像の多様性を維持しつつ,VDMが被写体忠実性を向上させるために,被験者特徴と生成コンテンツとの間の革新的な双方向インタラクションを考案する。
カスタマイズされた人間とオブジェクトの両方のビデオ生成実験は、我々のフレームワークの有効性を検証する。
関連論文リスト
- PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
我々は、T2Vモデルにより合成されたビデオを直接監視する、textbfPersonalVideoと呼ばれる新しいフレームワークを提案する。
本手法は,従来のT2Vモデルに固有の映像生成特性を保ちながら,高いアイデンティティ忠実度を実現する上での優位性であり,従来手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach [29.753974393652356]
フレーム対応ビデオ拡散モデル(FVDM)を提案する。
我々のアプローチでは、各フレームが独立したノイズスケジュールに従うことができ、モデルのキャパシティを高めて、きめ細かい時間依存性を捉えることができる。
実験により、FVDMは映像生成品質において最先端の手法よりも優れ、拡張タスクにも優れることが示された。
論文 参考訳(メタデータ) (2024-10-04T05:47:39Z) - JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation [6.463753697299011]
高品質な時間的コヒーレントなビデオを生成するための新しいアプローチであるJVID(Joint Video-Image Diffusion Model)を導入する。
その結果,現実的かつ一貫性のあるビデオの制作において,定量的かつ質的な改善が示された。
論文 参考訳(メタデータ) (2024-09-21T13:59:50Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework [33.46782517803435]
Make-Your-Anchorは、トレーニングのために個人の1分間のビデオクリップだけを必要とするシステムである。
入力ビデオ上に構造誘導拡散モデルを用いて3次元メッシュ条件を人間の外見に表現する。
出力ビデオにおける顔領域の視覚的品質を改善するために、新しい識別特異的顔強調モジュールが導入された。
論文 参考訳(メタデータ) (2024-03-25T07:54:18Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - GD-VDM: Generated Depth for better Diffusion-based Video Generation [18.039417502897486]
本稿では,映像生成のための新しい拡散モデルGD-VDMを提案する。
また,GD-VDMをCityscapesデータセット上で評価した結果,自然ベースラインよりも多様で複雑なシーンが生成されることがわかった。
論文 参考訳(メタデータ) (2023-06-19T21:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。