論文の概要: Concat-ID: Towards Universal Identity-Preserving Video Synthesis
- arxiv url: http://arxiv.org/abs/2503.14151v1
- Date: Tue, 18 Mar 2025 11:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:37.541255
- Title: Concat-ID: Towards Universal Identity-Preserving Video Synthesis
- Title(参考訳): Concat-ID:Universal Identity-Preserving Video Synthesisを目指して
- Authors: Yong Zhong, Zhuoyi Yang, Jiayan Teng, Xiaotao Gu, Chongxuan Li,
- Abstract要約: 本稿では、アイデンティティ保存ビデオ合成のための統合フレームワークであるConcat-IDを提案する。
Concat-IDはオートエンコーダを使って画像の特徴を抽出する。
整合性と顔の編集性のバランスをとるために、新しいクロスビデオペアリング戦略とマルチステージトレーニングレギュラーを導入する。
- 参考スコア(独自算出の注目度): 23.40342294656802
- License:
- Abstract: We present Concat-ID, a unified framework for identity-preserving video generation. Concat-ID employs Variational Autoencoders to extract image features, which are concatenated with video latents along the sequence dimension, leveraging solely 3D self-attention mechanisms without the need for additional modules. A novel cross-video pairing strategy and a multi-stage training regimen are introduced to balance identity consistency and facial editability while enhancing video naturalness. Extensive experiments demonstrate Concat-ID's superiority over existing methods in both single and multi-identity generation, as well as its seamless scalability to multi-subject scenarios, including virtual try-on and background-controllable generation. Concat-ID establishes a new benchmark for identity-preserving video synthesis, providing a versatile and scalable solution for a wide range of applications.
- Abstract(参考訳): 本稿では、ID保存ビデオ生成のための統合フレームワークであるConcat-IDを提案する。
Concat-IDは可変オートエンコーダを使用して画像の特徴を抽出する。
映像の自然性を高めつつ、アイデンティティの整合性と顔の編集性のバランスをとるために、新しいクロスビデオペアリング戦略とマルチステージトレーニングレギュラーを導入する。
大規模な実験では、Concat-IDは、単一およびマルチアイデンティティの生成における既存のメソッドよりも優れており、仮想トライオンやバックグラウンド制御可能な生成を含むマルチオブジェクトシナリオへのシームレスなスケーラビリティを示している。
Concat-IDは、アイデンティティを保存するビデオ合成のための新しいベンチマークを確立し、幅広いアプリケーションに対して汎用的でスケーラブルなソリューションを提供する。
関連論文リスト
- Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers [42.910185323392554]
撮影レベルの品質とダイナミックな動きで、アイデンティティ保存されたビデオを生成するためのフレームワークであるMagic Mirrorを提示する。
提案手法では,(1)特徴量と特徴量の両方をキャプチャするデュアルブランチ顔特徴抽出器,(2)効率的なアイデンティティ統合のための条件付き適応正規化を併用した軽量なクロスモーダルアダプタ,(3)合成IDペアとビデオデータを組み合わせた2段階のトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2025-01-07T16:48:31Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping [43.30061680192465]
ビデオ・フェイス・スワップに特化して設計された初めての拡散型フレームワークを提案する。
提案手法は,VidFaceVAEと組み合わせた特殊設計拡散モデルである。
本フレームワークは,従来の手法と比較して,アイデンティティの保存,時間的整合性,視覚的品質において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-15T18:58:32Z) - StableAnimator: High-Quality Identity-Preserving Human Image Animation [64.63765800569935]
本稿では,最初のエンドツーエンドID保存ビデオ拡散フレームワークであるStableAnimatorについて述べる。
ポストプロセッシングなしで高品質なビデオを合成し、参照画像とポーズのシーケンスに条件付けする。
推論中,顔の質をより高めるためにハミルトン・ヤコビベルマン(HJB)方程式に基づく新しい最適化を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:59:22Z) - InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation [0.0]
InstantFamilyは、ゼロショットマルチID画像生成を実現するために、新しいクロスアテンション機構とマルチモーダル埋め込みスタックを利用するアプローチである。
本手法は,テキスト条件と統合された事前学習された顔認識モデルから,グローバルな特徴とローカルな特徴を活用することにより,IDを効果的に保存する。
論文 参考訳(メタデータ) (2024-04-30T10:16:21Z) - ID-Animator: Zero-Shot Identity-Preserving Human Video Generation [16.438935466843304]
ID-アニメーター(ID-Animator)は、単一の参照顔画像からパーソナライズされたビデオを生成する、ゼロショットのヒューマンビデオ生成アプローチである。
本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
論文 参考訳(メタデータ) (2024-04-23T17:59:43Z) - Magic-Me: Identity-Specific Video Customized Diffusion [72.05925155000165]
本稿では、VCD(Video Custom Diffusion)と呼ばれる、制御可能な被写体識別制御可能なビデオ生成フレームワークを提案する。
いくつかの画像によって定義された特定IDにより、VCDはアイデンティティ特性を強化し、安定したビデオ出力のためにフレームワイズ相関を注入する。
我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-14T18:13:51Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - Attribute-aware Identity-hard Triplet Loss for Video-based Person
Re-identification [51.110453988705395]
ビデオベースの人物識別(Re-ID)は重要なコンピュータビジョンタスクである。
属性認識型ID-hard Triplet Loss (AITL) と呼ばれる新しいメトリクス学習手法を提案する。
ビデオベースのRe-IDの完全なモデルを実現するために,Attribute-driven Spatio-Temporal Attention (ASTA) 機構を備えたマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T09:15:38Z) - Towards Precise Intra-camera Supervised Person Re-identification [54.86892428155225]
人物の再識別(Re-ID)のためのカメラ内監視(ICS)は、アイデンティティラベルが各カメラビュー内に独立してアノテートされていると仮定する。
カメラ間ラベルの欠如により、ICS Re-ID問題は、完全に監督されたラベルよりもはるかに難しい。
われわれの手法は、2つのデータセットで最先端の完全教師付き手法に匹敵する性能を発揮する。
論文 参考訳(メタデータ) (2020-02-12T11:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。