論文の概要: Ingredients: Blending Custom Photos with Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2501.01790v1
- Date: Fri, 03 Jan 2025 12:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:32.258074
- Title: Ingredients: Blending Custom Photos with Video Diffusion Transformers
- Title(参考訳): 動画拡散変換器を内蔵したカスタム写真をブレンディングする「Ingredients」
- Authors: Zhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan,
- Abstract要約: texttIngredientsは、複数のID写真を含むビデオ作成をカスタマイズするフレームワークである。
本手法は3つの主要モジュールから構成される: (textbfi) グローバル・ローカル・パースペクティブおよびローカル・パースペクティブ・パースペクティブの両面から、多目的かつ正確な顔の特徴を抽出する顔抽出装置。
texttIngredientsは、カスタム写真をダイナミックでパーソナライズされたビデオコンテンツに変える上で、優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 31.736838809714726
- License:
- Abstract: This paper presents a powerful framework to customize video creations by incorporating multiple specific identity (ID) photos, with video diffusion Transformers, referred to as \texttt{Ingredients}. Generally, our method consists of three primary modules: (\textbf{i}) a facial extractor that captures versatile and precise facial features for each human ID from both global and local perspectives; (\textbf{ii}) a multi-scale projector that maps face embeddings into the contextual space of image query in video diffusion transformers; (\textbf{iii}) an ID router that dynamically combines and allocates multiple ID embedding to the corresponding space-time regions. Leveraging a meticulously curated text-video dataset and a multi-stage training protocol, \texttt{Ingredients} demonstrates superior performance in turning custom photos into dynamic and personalized video content. Qualitative evaluations highlight the advantages of proposed method, positioning it as a significant advancement toward more effective generative video control tools in Transformer-based architecture, compared to existing methods. The data, code, and model weights are publicly available at: \url{https://github.com/feizc/Ingredients}.
- Abstract(参考訳): 本稿では、複数の特定ID(ID)写真とビデオ拡散変換器を組み込むことにより、映像作成をカスタマイズする強力なフレームワークを提案する。
一般的に,本手法は3つの主要モジュールから構成される: (\textbf{i}) グローバルおよびローカルの両方の観点から,ヒトのIDの汎用的かつ正確な顔特徴をキャプチャする顔抽出器; (\textbf{ii}) 映像拡散変換器における画像クエリのコンテキスト空間に顔埋め込みをマッピングするマルチスケールプロジェクタ; (\textbf{iii}) 対応する時空間に埋め込まれた複数のIDを動的に結合し割り当てるIDルータ。
巧妙にキュレートされたテキストビデオデータセットとマルチステージのトレーニングプロトコルを活用することで、カスタム写真をダイナミックでパーソナライズされたビデオコンテンツに変換する上で、優れたパフォーマンスを示す。
定性的な評価は,提案手法の利点を強調し,トランスフォーマーに基づくアーキテクチャにおいて,既存の手法と比較して,より効果的な生成ビデオ制御ツールへの大きな進歩と位置づけている。
データ、コード、モデルの重み付けは、以下で公開されている。
関連論文リスト
- Phantom: Subject-consistent video generation via cross-modal alignment [13.067225653349901]
Phantomはシングルオブジェクトおよびマルチオブジェクト参照用の統合ビデオ生成フレームワークである。
我々は、既存のID保存ビデオ生成をカバーしつつ、強化されたアドバンテージを提供しながら、ヒューマンジェネレーションにおける主観的一貫性を強調した。
論文 参考訳(メタデータ) (2025-02-16T11:02:50Z) - BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。
我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文 参考訳(メタデータ) (2025-01-13T19:17:06Z) - Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance [29.768141136041454]
分離されたテキストをベースとした新しいマルチキャラクタ・ビデオ生成フレームワークを提案する。
具体的には、まずポーズシーケンスから文字マスクを抽出し、各生成文字の空間的位置を識別し、各文字の単一プロンプトをLLMで取得する。
ビデオ生成結果の可視化により,本手法の精度の高いマルチキャラクタ生成の可能性を示した。
論文 参考訳(メタデータ) (2024-12-21T05:49:40Z) - VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation [70.61101071902596]
現在の世代モデルは短いクリップを生成するのに優れていますが、マルチショット映画のようなビデオを作るのに苦戦しています。
マルチショットビデオ生成に特化して設計された協調学習不要なアーキテクチャであるVideoGen-of-Thought (VGoT)を提案する。
我々の実験は、VGoTが高品質でコヒーレントなマルチショットビデオを作成する際に、既存のビデオ生成方法を上回ることを実証している。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。