論文の概要: ID-Animator: Zero-Shot Identity-Preserving Human Video Generation
- arxiv url: http://arxiv.org/abs/2404.15275v3
- Date: Tue, 25 Jun 2024 16:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 19:59:30.888944
- Title: ID-Animator: Zero-Shot Identity-Preserving Human Video Generation
- Title(参考訳): IDアニメーター:ゼロショットアイデンティティ保存ヒューマンビデオ生成
- Authors: Xuanhua He, Quande Liu, Shengju Qian, Xin Wang, Tao Hu, Ke Cao, Keyu Yan, Jie Zhang,
- Abstract要約: ID-アニメーター(ID-Animator)は、単一の参照顔画像からパーソナライズされたビデオを生成する、ゼロショットのヒューマンビデオ生成アプローチである。
本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
- 参考スコア(独自算出の注目度): 16.438935466843304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-fidelity human video with specified identities has attracted significant attention in the content generation community. However, existing techniques struggle to strike a balance between training efficiency and identity preservation, either requiring tedious case-by-case fine-tuning or usually missing identity details in the video generation process. In this study, we present \textbf{ID-Animator}, a zero-shot human-video generation approach that can perform personalized video generation given a single reference facial image without further training. ID-Animator inherits existing diffusion-based video generation backbones with a face adapter to encode the ID-relevant embeddings from learnable facial latent queries. To facilitate the extraction of identity information in video generation, we introduce an ID-oriented dataset construction pipeline that incorporates unified human attributes and action captioning techniques from a constructed facial image pool. Based on this pipeline, a random reference training strategy is further devised to precisely capture the ID-relevant embeddings with an ID-preserving loss, thus improving the fidelity and generalization capacity of our model for ID-specific video generation. Extensive experiments demonstrate the superiority of ID-Animator to generate personalized human videos over previous models. Moreover, our method is highly compatible with popular pre-trained T2V models like animatediff and various community backbone models, showing high extendability in real-world applications for video generation where identity preservation is highly desired. Our codes and checkpoints are released at https://github.com/ID-Animator/ID-Animator.
- Abstract(参考訳): 特定のアイデンティティを持つ高忠実度人間ビデオの生成は、コンテンツ生成コミュニティにおいて大きな注目を集めている。
しかし、既存のテクニックは、ビデオ生成プロセスにおいて、面倒なケースバイケースの微調整を必要とするか、通常、アイデンティティの詳細を欠くか、トレーニング効率とアイデンティティ保存のバランスをとるのに苦労している。
本研究では,1つの参照顔画像からパーソナライズされた映像を生成するゼロショット映像生成手法である「textbf{ID-Animator}」を提案する。
ID-Animatorは既存の拡散ベースのビデオ生成バックボーンをフェイスアダプタで継承し、学習可能な顔認識クエリからID関連埋め込みを符号化する。
映像生成におけるアイデンティティ情報の抽出を容易にするため、構築された顔画像プールから、統合された人間の属性とアクションキャプション技術を組み込んだID指向データセット構築パイプラインを導入する。
このパイプラインに基づいて、ID保存損失を伴うID関連埋め込みを正確に捕捉するランダム参照トレーニング戦略を考案し、ID固有ビデオ生成モデルにおける忠実度と一般化能力を向上させる。
大規模な実験は、以前のモデルよりもパーソナライズされた人間ビデオを生成するためのID-アニメーションの優位性を実証している。
さらに,本手法は,アニメーションフや各種コミュニティバックボーンモデルといった,トレーニング済みのT2Vモデルと互換性が高く,アイデンティティの保存が望まれる実世界のビデオ生成アプリケーションにおいて,高い拡張性を示す。
私たちのコードとチェックポイントはhttps://github.com/ID-Animator/ID-Animator.comで公開されています。
関連論文リスト
- StableAnimator: High-Quality Identity-Preserving Human Image Animation [64.63765800569935]
本稿では,最初のエンドツーエンドID保存ビデオ拡散フレームワークであるStableAnimatorについて述べる。
ポストプロセッシングなしで高品質なビデオを合成し、参照画像とポーズのシーケンスに条件付けする。
推論中,顔の質をより高めるためにハミルトン・ヤコビベルマン(HJB)方程式に基づく新しい最適化を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:59:22Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
我々は、T2Vモデルにより合成されたビデオを直接監視する、textbfPersonalVideoと呼ばれる新しいフレームワークを提案する。
本手法は,従来のT2Vモデルに固有の映像生成特性を保ちながら,高いアイデンティティ忠実度を実現する上での優位性であり,従来手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Magic-Me: Identity-Specific Video Customized Diffusion [72.05925155000165]
本稿では、VCD(Video Custom Diffusion)と呼ばれる、制御可能な被写体識別制御可能なビデオ生成フレームワークを提案する。
いくつかの画像によって定義された特定IDにより、VCDはアイデンティティ特性を強化し、安定したビデオ出力のためにフレームワイズ相関を注入する。
我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-14T18:13:51Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - PoseTrackReID: Dataset Description [97.7241689753353]
詩情報は、背景や閉塞音から有用な特徴情報を遠ざけるのに役立つ。
PoseTrackReIDでは、人物のリIDと複数人のポーズトラッキングのギャップを埋めたいと考えています。
このデータセットは、マルチフレームの人物のre-IDに関する現在の最先端メソッドに対する優れたベンチマークを提供する。
論文 参考訳(メタデータ) (2020-11-12T07:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。