論文の概要: ID-Animator: Zero-Shot Identity-Preserving Human Video Generation
- arxiv url: http://arxiv.org/abs/2404.15275v1
- Date: Tue, 23 Apr 2024 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:03:00.226472
- Title: ID-Animator: Zero-Shot Identity-Preserving Human Video Generation
- Title(参考訳): IDアニメーター:ゼロショットアイデンティティ保存ヒューマンビデオ生成
- Authors: Xuanhua He, Quande Liu, Shengju Qian, Xin Wang, Tao Hu, Ke Cao, Keyu Yan, Man Zhou, Jie Zhang,
- Abstract要約: ID-アニメーター (ID-Animator) はゼロショットの人間ビデオ生成方式であり、訓練を受けることなく単一の参照顔画像に対してパーソナライズされたビデオ生成を行うことができる。
本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
- 参考スコア(独自算出の注目度): 26.031502744866238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high fidelity human video with specified identities has attracted significant attention in the content generation community. However, existing techniques struggle to strike a balance between training efficiency and identity preservation, either requiring tedious case-by-case finetuning or usually missing the identity details in video generation process. In this study, we present ID-Animator, a zero-shot human-video generation approach that can perform personalized video generation given single reference facial image without further training. ID-Animator inherits existing diffusion-based video generation backbones with a face adapter to encode the ID-relevant embeddings from learnable facial latent queries. To facilitate the extraction of identity information in video generation, we introduce an ID-oriented dataset construction pipeline, which incorporates decoupled human attribute and action captioning technique from a constructed facial image pool. Based on this pipeline, a random face reference training method is further devised to precisely capture the ID-relevant embeddings from reference images, thus improving the fidelity and generalization capacity of our model for ID-specific video generation. Extensive experiments demonstrate the superiority of ID-Animator to generate personalized human videos over previous models. Moreover, our method is highly compatible with popular pre-trained T2V models like animatediff and various community backbone models, showing high extendability in real-world applications for video generation where identity preservation is highly desired. Our codes and checkpoints will be released at https://github.com/ID-Animator/ID-Animator.
- Abstract(参考訳): 特定のアイデンティティを持つ高忠実度人間ビデオの生成は、コンテンツ生成コミュニティにおいて大きな注目を集めている。
しかし、既存の技術は、面倒なケース・バイ・ケースの微調整や、ビデオ生成プロセスにおけるアイデンティティの詳細の欠如など、トレーニング効率とアイデンティティの保存のバランスを崩すことに苦慮している。
本研究では,1つの参照顔画像に対して,それ以上のトレーニングを行なわずにパーソナライズされた映像を生成する,ゼロショット映像生成手法であるID-Animatorを提案する。
ID-Animatorは既存の拡散ベースのビデオ生成バックボーンをフェイスアダプタで継承し、学習可能な顔認識クエリからID関連埋め込みを符号化する。
映像生成におけるアイデンティティ情報の抽出を容易にするため、構築された顔画像プールから、切り離された人間の属性とアクションキャプション技術を組み込んだID指向データセット構築パイプラインを導入する。
このパイプラインに基づいて,参照画像からID関連埋め込みを的確に捕捉するランダムな顔参照訓練法が考案され,本モデルにおけるID固有ビデオ生成の忠実度と一般化能力の向上が図られた。
大規模な実験は、以前のモデルよりもパーソナライズされた人間ビデオを生成するためのID-アニメーションの優位性を実証している。
さらに,本手法は,アニメーションフや各種コミュニティバックボーンモデルといった,トレーニング済みのT2Vモデルと互換性が高く,アイデンティティの保存が望まれる実世界のビデオ生成アプリケーションにおいて,高い拡張性を示す。
私たちのコードとチェックポイントはhttps://github.com/ID-Animator/ID-Animator.comでリリースされます。
関連論文リスト
- StableAnimator: High-Quality Identity-Preserving Human Image Animation [64.63765800569935]
本稿では,最初のエンドツーエンドID保存ビデオ拡散フレームワークであるStableAnimatorについて述べる。
ポストプロセッシングなしで高品質なビデオを合成し、参照画像とポーズのシーケンスに条件付けする。
推論中,顔の質をより高めるためにハミルトン・ヤコビベルマン(HJB)方程式に基づく新しい最適化を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:59:22Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
我々は、T2Vモデルにより合成されたビデオを直接監視する、textbfPersonalVideoと呼ばれる新しいフレームワークを提案する。
本手法は,従来のT2Vモデルに固有の映像生成特性を保ちながら,高いアイデンティティ忠実度を実現する上での優位性であり,従来手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Magic-Me: Identity-Specific Video Customized Diffusion [72.05925155000165]
本稿では、VCD(Video Custom Diffusion)と呼ばれる、制御可能な被写体識別制御可能なビデオ生成フレームワークを提案する。
いくつかの画像によって定義された特定IDにより、VCDはアイデンティティ特性を強化し、安定したビデオ出力のためにフレームワイズ相関を注入する。
我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-14T18:13:51Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - PoseTrackReID: Dataset Description [97.7241689753353]
詩情報は、背景や閉塞音から有用な特徴情報を遠ざけるのに役立つ。
PoseTrackReIDでは、人物のリIDと複数人のポーズトラッキングのギャップを埋めたいと考えています。
このデータセットは、マルチフレームの人物のre-IDに関する現在の最先端メソッドに対する優れたベンチマークを提供する。
論文 参考訳(メタデータ) (2020-11-12T07:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。