論文の概要: Phantom: Subject-consistent video generation via cross-modal alignment
- arxiv url: http://arxiv.org/abs/2502.11079v1
- Date: Sun, 16 Feb 2025 11:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:16.851338
- Title: Phantom: Subject-consistent video generation via cross-modal alignment
- Title(参考訳): Phantom:クロスモーダルアライメントによる被写体一貫性ビデオ生成
- Authors: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu,
- Abstract要約: Phantomはシングルオブジェクトおよびマルチオブジェクト参照用の統合ビデオ生成フレームワークである。
我々は、既存のID保存ビデオ生成をカバーしつつ、強化されたアドバンテージを提供しながら、ヒューマンジェネレーションにおける主観的一貫性を強調した。
- 参考スコア(独自算出の注目度): 13.067225653349901
- License:
- Abstract: The continuous development of foundational models for video generation is evolving into various applications, with subject-consistent video generation still in the exploratory stage. We refer to this as Subject-to-Video, which extracts subject elements from reference images and generates subject-consistent video through textual instructions. We believe that the essence of subject-to-video lies in balancing the dual-modal prompts of text and image, thereby deeply and simultaneously aligning both text and visual content. To this end, we propose Phantom, a unified video generation framework for both single and multi-subject references. Building on existing text-to-video and image-to-video architectures, we redesign the joint text-image injection model and drive it to learn cross-modal alignment via text-image-video triplet data. In particular, we emphasize subject consistency in human generation, covering existing ID-preserving video generation while offering enhanced advantages. The project homepage is here https://phantom-video.github.io/Phantom/.
- Abstract(参考訳): ビデオ生成の基礎モデルの継続的な開発は様々な応用に発展しており、まだ探索段階にある。
我々はこれを、参照画像から主観的要素を抽出し、テキストによる指示により主観的映像を生成する「主観的映像」と呼ぶ。
テキストと画像の二重モーダルなプロンプトのバランスが、テキストと視覚コンテンツの両方を深く同時に調整することの本質であると我々は信じている。
この目的のために,シングルオブジェクトおよびマルチオブジェクト参照用の統合ビデオ生成フレームワークであるPhantomを提案する。
既存のテキスト・ツー・ビデオ・アーキテクチャーと画像・ビデオ・アーキテクチャーをベースとして、私たちは共同のテキスト・イメージ・インジェクション・モデルを再設計し、テキスト・イメージ・ビデオ・トリプルト・データを用いて、モーダル・アライメントを学習する。
特に、既存のID保存ビデオ生成をカバーしつつ、強化されたアドバンテージを提供しながら、人間の生成における主観的一貫性を強調した。
プロジェクトのホームページはこちら(https://phantom-video.github.io/Phantom/)にある。
関連論文リスト
- Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (2024-06-25T17:59:41Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary
Generator [34.7504057664375]
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。
ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
論文 参考訳(メタデータ) (2020-09-04T06:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。