論文の概要: Ingredients: Blending Custom Photos with Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2501.01790v1
- Date: Fri, 03 Jan 2025 12:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 16:38:31.595152
- Title: Ingredients: Blending Custom Photos with Video Diffusion Transformers
- Title(参考訳): 動画拡散変換器を内蔵したカスタム写真をブレンディングする「Ingredients」
- Authors: Zhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan,
- Abstract要約: texttIngredientsは、複数のID写真を含むビデオ作成をカスタマイズするフレームワークである。
本手法は3つの主要モジュールから構成される: (textbfi) グローバル・ローカル・パースペクティブおよびローカル・パースペクティブ・パースペクティブの両面から、多目的かつ正確な顔の特徴を抽出する顔抽出装置。
texttIngredientsは、カスタム写真をダイナミックでパーソナライズされたビデオコンテンツに変える上で、優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 31.736838809714726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a powerful framework to customize video creations by incorporating multiple specific identity (ID) photos, with video diffusion Transformers, referred to as \texttt{Ingredients}. Generally, our method consists of three primary modules: (\textbf{i}) a facial extractor that captures versatile and precise facial features for each human ID from both global and local perspectives; (\textbf{ii}) a multi-scale projector that maps face embeddings into the contextual space of image query in video diffusion transformers; (\textbf{iii}) an ID router that dynamically combines and allocates multiple ID embedding to the corresponding space-time regions. Leveraging a meticulously curated text-video dataset and a multi-stage training protocol, \texttt{Ingredients} demonstrates superior performance in turning custom photos into dynamic and personalized video content. Qualitative evaluations highlight the advantages of proposed method, positioning it as a significant advancement toward more effective generative video control tools in Transformer-based architecture, compared to existing methods. The data, code, and model weights are publicly available at: \url{https://github.com/feizc/Ingredients}.
- Abstract(参考訳): 本稿では、複数の特定ID(ID)写真とビデオ拡散変換器を組み込むことにより、映像作成をカスタマイズする強力なフレームワークを提案する。
一般的に,本手法は3つの主要モジュールから構成される: (\textbf{i}) グローバルおよびローカルの両方の観点から,ヒトのIDの汎用的かつ正確な顔特徴をキャプチャする顔抽出器; (\textbf{ii}) 映像拡散変換器における画像クエリのコンテキスト空間に顔埋め込みをマッピングするマルチスケールプロジェクタ; (\textbf{iii}) 対応する時空間に埋め込まれた複数のIDを動的に結合し割り当てるIDルータ。
巧妙にキュレートされたテキストビデオデータセットとマルチステージのトレーニングプロトコルを活用することで、カスタム写真をダイナミックでパーソナライズされたビデオコンテンツに変換する上で、優れたパフォーマンスを示す。
定性的な評価は,提案手法の利点を強調し,トランスフォーマーに基づくアーキテクチャにおいて,既存の手法と比較して,より効果的な生成ビデオ制御ツールへの大きな進歩と位置づけている。
データ、コード、モデルの重み付けは、以下で公開されている。
関連論文リスト
- Reangle-A-Video: 4D Video Generation as Video-to-Video Translation [51.328567400947435]
単一の入力ビデオから同期化されたマルチビュービデオを生成するための統合フレームワークであるReangle-A-Videoを紹介する。
提案手法は,多視点映像生成タスクをビデオ間翻訳として再設計し,公開画像とビデオ拡散先行情報を活用する。
論文 参考訳(メタデータ) (2025-03-12T08:26:15Z) - Get In Video: Add Anything You Want to the Video [48.06070610416688]
ビデオ編集では、特定の現実世界のインスタンスを既存の映像に組み込む能力がますます求められている。
現在のアプローチでは、特定の対象のユニークな視覚的特徴を捉え、自然なインスタンス/シーンの相互作用を保証することができません。
本稿では,ユーザがビデオに取り入れたい視覚的要素を正確に特定するための参照画像を提供する「Get-In-Video Editing」を紹介する。
論文 参考訳(メタデータ) (2025-03-08T16:27:53Z) - Phantom: Subject-consistent video generation via cross-modal alignment [16.777805813950486]
シングルオブジェクトとマルチオブジェクトの両方の参照に統一されたビデオ生成フレームワークを提案する。
提案手法は,画像コンテンツのリークや複数オブジェクトの混同といった問題に対処しながら,高忠実度映像生成を実現する。
論文 参考訳(メタデータ) (2025-02-16T11:02:50Z) - CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers [15.558659099600822]
CustomVideoXは、LoRAパラメータをトレーニングして参照機能を抽出することで、事前トレーニングされたビデオネットワークを活用する。
本稿では,参照画像特徴の直接的かつ同時エンゲージメントを可能にする3D参照注意を提案する。
実験の結果, CustomVideoXはビデオの一貫性や品質という点で既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-10T14:50:32Z) - Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance [29.768141136041454]
分離されたテキストをベースとした新しいマルチキャラクタ・ビデオ生成フレームワークを提案する。
具体的には、まずポーズシーケンスから文字マスクを抽出し、各生成文字の空間的位置を識別し、各文字の単一プロンプトをLLMで取得する。
ビデオ生成結果の可視化により,本手法の精度の高いマルチキャラクタ生成の可能性を示した。
論文 参考訳(メタデータ) (2024-12-21T05:49:40Z) - VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation [70.61101071902596]
現在の世代モデルは短いクリップを生成するのに優れていますが、マルチショット映画のようなビデオを作るのに苦戦しています。
マルチショットビデオ生成に特化して設計された協調学習不要なアーキテクチャであるVideoGen-of-Thought (VGoT)を提案する。
我々の実験は、VGoTが高品質でコヒーレントなマルチショットビデオを作成する際に、既存のビデオ生成方法を上回ることを実証している。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation [67.97044071594257]
TweedieMixは、カスタマイズされた拡散モデルを構成する新しい方法である。
我々のフレームワークは、画像とビデオの拡散モデルに力ずくで拡張できる。
論文 参考訳(メタデータ) (2024-10-08T01:06:01Z) - SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - VideoStudio: Generating Consistent-Content and Multi-Scene Videos [88.88118783892779]
VideoStudioは、一貫したコンテンツとマルチシーンのビデオ生成のためのフレームワークである。
VideoStudioはLarge Language Models (LLM)を活用して、入力プロンプトを総合的なマルチシーンスクリプトに変換する。
VideoStudioは、視覚的品質、コンテンツ整合性、ユーザの好みといった点で、SOTAビデオ生成モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-02T15:56:48Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - CoDeF: Content Deformation Fields for Temporally Consistent Video Processing [86.25225894085105]
CoDeFは、標準コンテンツフィールドと時間変形フィールドからなる新しいタイプのビデオ表現である。
実験により,CoDeFは,映像から映像への変換とキーポイント検出をキーポイントトラッキングに,トレーニングなしで持ち上げることができることを示した。
論文 参考訳(メタデータ) (2023-08-15T17:59:56Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。