論文の概要: VideoBooth: Diffusion-based Video Generation with Image Prompts
- arxiv url: http://arxiv.org/abs/2312.00777v1
- Date: Fri, 1 Dec 2023 18:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 13:38:03.574046
- Title: VideoBooth: Diffusion-based Video Generation with Image Prompts
- Title(参考訳): VideoBooth:画像プロンプトによる拡散型ビデオ生成
- Authors: Yuming Jiang, Tianxing Wu, Shuai Yang, Chenyang Si, Dahua Lin, Yu
Qiao, Chen Change Loy, Ziwei Liu
- Abstract要約: 画像プロンプトを用いた映像生成のためのフィードフォワードフレームワークを提案する。
VideoBoothは、画像プロンプトに指定された被写体でカスタマイズされた高品質なビデオを生成する際に、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 130.47771531413375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven video generation witnesses rapid progress. However, merely using
text prompts is not enough to depict the desired subject appearance that
accurately aligns with users' intents, especially for customized content
creation. In this paper, we study the task of video generation with image
prompts, which provide more accurate and direct content control beyond the text
prompts. Specifically, we propose a feed-forward framework VideoBooth, with two
dedicated designs: 1) We propose to embed image prompts in a coarse-to-fine
manner. Coarse visual embeddings from image encoder provide high-level
encodings of image prompts, while fine visual embeddings from the proposed
attention injection module provide multi-scale and detailed encoding of image
prompts. These two complementary embeddings can faithfully capture the desired
appearance. 2) In the attention injection module at fine level, multi-scale
image prompts are fed into different cross-frame attention layers as additional
keys and values. This extra spatial information refines the details in the
first frame and then it is propagated to the remaining frames, which maintains
temporal consistency. Extensive experiments demonstrate that VideoBooth
achieves state-of-the-art performance in generating customized high-quality
videos with subjects specified in image prompts. Notably, VideoBooth is a
generalizable framework where a single model works for a wide range of image
prompts with feed-forward pass.
- Abstract(参考訳): テキスト駆動ビデオ生成は急速に進歩している。
しかし、テキストプロンプトだけでは、特にカスタマイズされたコンテンツ作成のためにユーザーの意図と正確に一致する、望ましい主題の外観を描くには不十分である。
本稿では,画像プロンプトを用いた映像生成の課題について検討し,テキストプロンプトを超えて,より正確かつ直接的なコンテンツ制御を実現する。
具体的には,2つの専用設計のフィードフォワードフレームワークであるVideoBoothを提案する。
1) 画像のプロンプトを粗い方法で埋め込むことを提案する。
画像エンコーダからの粗い視覚埋め込みは画像プロンプトの高レベルエンコーディングを提供し、提案されている注意インジェクションモジュールからの細かい視覚埋め込みは画像プロンプトのマルチスケールで詳細なエンコーディングを提供する。
これら2つの相補的な埋め込みは、望ましい外観を忠実に捉えることができる。
2)微妙なレベルの注意注入モジュールでは,複数スケールの画像プロンプトを付加キーと値として異なるフレームの注意層に投入する。
この余分な空間情報は、最初のフレームの詳細を洗練し、残りのフレームに伝播し、時間的一貫性を維持する。
広範囲な実験により、videoboothは、画像プロンプトで指定された主題でカスタマイズされた高品質ビデオを生成することで、最先端のパフォーマンスを達成できることが示されている。
特に、VideoBoothは、フィードフォワードパスで幅広い画像プロンプトを単一のモデルで処理する、一般化可能なフレームワークである。
関連論文リスト
- MAMS: Model-Agnostic Module Selection Framework for Video Captioning [11.442879458679144]
既存のマルチモーダルビデオキャプション手法は、通常、一定数のフレームを抽出する。
本稿では,ビデオキャプションにおける最初のモデルに依存しないモジュール選択フレームワークを提案する。
提案手法は,最近の3つのビデオキャプションモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-01-30T11:10:18Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Accurate and Fast Compressed Video Captioning [28.19362369787383]
既存のビデオキャプションアプローチでは、デコードされたビデオから最初にビデオフレームをサンプリングし、その後のプロセスを実行する必要がある。
圧縮領域の異なる視点からビデオキャプションについて検討し、既存のパイプラインに対してマルチフォールドの利点をもたらす。
本稿では,ビデオキャプションの圧縮領域において,ビデオキャプションの圧縮領域から学習可能な,シンプルで効果的なエンドツーエンド変換器を提案する。
論文 参考訳(メタデータ) (2023-09-22T13:43:22Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。