論文の概要: BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations
- arxiv url: http://arxiv.org/abs/2501.07647v1
- Date: Mon, 13 Jan 2025 19:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:26:52.398631
- Title: BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations
- Title(参考訳): BlobGEN-Vid:Blobビデオ表現を用いた合成テキスト・ビデオ生成
- Authors: Weixi Feng, Chao Liu, Sifei Liu, William Yang Wang, Arash Vahdat, Weili Nie,
- Abstract要約: 既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。
我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
- 参考スコア(独自算出の注目度): 82.94002870060045
- License:
- Abstract: Existing video generation models struggle to follow complex text prompts and synthesize multiple objects, raising the need for additional grounding input for improved controllability. In this work, we propose to decompose videos into visual primitives - blob video representation, a general representation for controllable video generation. Based on blob conditions, we develop a blob-grounded video diffusion model named BlobGEN-Vid that allows users to control object motions and fine-grained object appearance. In particular, we introduce a masked 3D attention module that effectively improves regional consistency across frames. In addition, we introduce a learnable module to interpolate text embeddings so that users can control semantics in specific frames and obtain smooth object transitions. We show that our framework is model-agnostic and build BlobGEN-Vid based on both U-Net and DiT-based video diffusion models. Extensive experimental results show that BlobGEN-Vid achieves superior zero-shot video generation ability and state-of-the-art layout controllability on multiple benchmarks. When combined with an LLM for layout planning, our framework even outperforms proprietary text-to-video generators in terms of compositional accuracy.
- Abstract(参考訳): 既存のビデオ生成モデルは、複雑なテキストのプロンプトに従い、複数のオブジェクトを合成するのに苦労し、制御性を改善するための新たな基底入力の必要性が高まっている。
本研究では,映像を視覚的プリミティブ – ブロブビデオ表現 – に分解し,制御可能な映像生成のための汎用表現を提案する。
ブロブ条件に基づいてBlobGEN-Vidというブロブグラウンドの映像拡散モデルを構築し,ユーザがオブジェクトの動きや細かいオブジェクトの外観を制御できるようにする。
特に,フレーム間の局所的一貫性を効果的に向上するマスク付き3Dアテンションモジュールを提案する。
さらに,テキスト埋め込みを補間する学習可能なモジュールを導入し,ユーザが特定のフレームのセマンティクスを制御し,スムーズなオブジェクト遷移を得ることができるようにした。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
広汎な実験結果から,BlobGEN-Vidは,複数のベンチマークにおいて,ゼロショット映像生成能力と最先端レイアウト制御性に優れることがわかった。
レイアウト計画のためのLLMと組み合わせることで、我々のフレームワークは構成精度で独自のテキスト・ビデオ・ジェネレータよりも優れています。
関連論文リスト
- Compositional Text-to-Image Generation with Dense Blob Representations [48.1976291999674]
既存のテキスト画像モデルは、複雑なテキストプロンプトに従うのに苦労する。
我々は,BlobGENと呼ばれるBlob-grounded text-to-image diffusion modelを合成生成のために開発する。
実験の結果,BlobGENは,MS-COCOにおけるゼロショット生成品質とレイアウト誘導制御性を向上することがわかった。
論文 参考訳(メタデータ) (2024-05-14T00:22:06Z) - Moonshot: Towards Controllable Video Generation and Editing with
Multimodal Conditions [94.03133100056372]
Moonshotは、画像とテキストのマルチモーダル入力を同時に処理する新しいビデオ生成モデルである。
モデルは、パーソナライズされたビデオ生成、画像アニメーション、ビデオ編集など、様々な生成アプリケーションに容易に再利用できる。
論文 参考訳(メタデータ) (2024-01-03T16:43:47Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - VideoDirectorGPT: Consistent Multi-scene Video Generation via LLM-Guided Planning [62.51232333352754]
VideoDirectorGPTは、一貫したマルチシーンビデオ生成のための新しいフレームワークである。
提案手法は,複数シーンのビデオ生成におけるレイアウトと移動制御を大幅に改善する。
論文 参考訳(メタデータ) (2023-09-26T17:36:26Z) - VideoControlNet: A Motion-Guided Video-to-Video Translation Framework by
Using Diffusion Model with ControlNet [26.458417029197957]
本稿では,VideoControlNetと呼ばれる動き誘導型動画翻訳フレームワークを提案する。
時間的冗長性を低減するために動き情報を利用するビデオコーデックにインスパイアされたこのフレームワークは、動き情報を用いて冗長領域の再生を防止する。
実験により,提案したVideoControlNetは,事前学習した大拡散モデルの生成能力を継承することを示した。
論文 参考訳(メタデータ) (2023-07-26T09:50:44Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。