論文の概要: EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion
- arxiv url: http://arxiv.org/abs/2501.13452v1
- Date: Thu, 23 Jan 2025 08:06:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:10.175047
- Title: EchoVideo: Identity-Preserving Human Video Generation by Multimodal Feature Fusion
- Title(参考訳): エコービデオ:マルチモーダル・フィーチャー・フュージョンによるアイデンティティ保存人間ビデオ生成
- Authors: Jiangchuan Wei, Shiyue Yan, Wenfeng Lin, Boyuan Liu, Renjie Chen, Mingyu Guo,
- Abstract要約: 既存の手法は「コピー・ペースト」アーティファクトと類似性の低い問題に苦しむ。
テキストから高レベルなセマンティック機能を統合して、クリーンな顔認証表現をキャプチャするEchoVideoを提案する。
高品質で制御性があり、忠実なビデオを生成するのに優れた結果をもたらす。
- 参考スコア(独自算出の注目度): 3.592206475366951
- License:
- Abstract: Recent advancements in video generation have significantly impacted various downstream applications, particularly in identity-preserving video generation (IPT2V). However, existing methods struggle with "copy-paste" artifacts and low similarity issues, primarily due to their reliance on low-level facial image information. This dependence can result in rigid facial appearances and artifacts reflecting irrelevant details. To address these challenges, we propose EchoVideo, which employs two key strategies: (1) an Identity Image-Text Fusion Module (IITF) that integrates high-level semantic features from text, capturing clean facial identity representations while discarding occlusions, poses, and lighting variations to avoid the introduction of artifacts; (2) a two-stage training strategy, incorporating a stochastic method in the second phase to randomly utilize shallow facial information. The objective is to balance the enhancements in fidelity provided by shallow features while mitigating excessive reliance on them. This strategy encourages the model to utilize high-level features during training, ultimately fostering a more robust representation of facial identities. EchoVideo effectively preserves facial identities and maintains full-body integrity. Extensive experiments demonstrate that it achieves excellent results in generating high-quality, controllability and fidelity videos.
- Abstract(参考訳): 近年の映像生成の進歩は、特にアイデンティティ保存ビデオ生成(IPT2V)において、下流の様々な応用に大きな影響を与えている。
しかし、既存の手法は「コピー・ペースト」アーティファクトと類似性の低い問題に苦慮しており、主に低レベルの顔画像情報に依存している。
この依存は、無関係な詳細を反映する硬直した顔の外観や人工物をもたらす可能性がある。
これらの課題に対処するため,(1)テキストから高レベルなセマンティックな特徴を統合したIdentity Image-Text Fusion Module (IITF) ,2) 浅い顔情報をランダムに活用するための2段階のトレーニング戦略である。
目的は、過度な依存を軽減しつつ、浅い特徴によって提供される忠実さの強化をバランスさせることである。
この戦略は、トレーニング中に高レベルの特徴を活用することを奨励し、最終的には、より堅牢な顔のアイデンティティの表現を促進する。
EchoVideoは、顔のアイデンティティを効果的に保存し、フルボディの完全性を維持する。
大規模な実験により、高品質、可制御性、忠実度ビデオの生成に優れた結果が得られた。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Do As I Do: Pose Guided Human Motion Copy [39.40271266234068]
モーションコピーは、人工知能とコンピュータビジョンにおいて興味深いが難しい課題だ。
既存のアプローチでは、通常、ターゲットのフェイクビデオを生成するために、L1またはL2損失の従来のGANを採用する。
連続学習を促進するために,ポーズ・ツー・アジュアンス生成におけるエピソード記憶モジュールを提案する。
提案手法は,PSNRとFIDをそれぞれ7.2%,12.4%改善した。
論文 参考訳(メタデータ) (2024-06-24T12:41:51Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Facial Expression Video Generation Based-On Spatio-temporal
Convolutional GAN: FEV-GAN [1.279257604152629]
6つの基本表情の映像を生成するための新しいアプローチを提案する。
提案手法は,同一ネットワークにおけるコンテンツと動作の両方をモデル化することが知られている時空間的コナールGANをベースとしている。
コードと事前訓練されたモデルは間もなく公開される予定だ。
論文 参考訳(メタデータ) (2022-10-20T11:54:32Z) - StyleFaceV: Face Video Generation via Decomposing and Recomposing
Pretrained StyleGAN3 [43.43545400625567]
そこで我々は,鮮明な動きを持つ高忠実度ID保存顔ビデオを生成するStyleFaceVというフレームワークを提案する。
我々の中核となる洞察は、外観を分解し、情報を合成し、それらをStyleGAN3の潜在空間に再分解することで、安定的でダイナミックな結果を生み出すことである。
論文 参考訳(メタデータ) (2022-08-16T17:47:03Z) - Leveraging Real Talking Faces via Self-Supervision for Robust Forgery
Detection [112.96004727646115]
本研究では,実話を用いた顔操作映像の検出手法を開発した。
本手法は, クロスマニピュレーションの一般化とロバストネス実験における最先端性能を実現する。
以上の結果から、より堅牢な顔偽造検知器の開発には、自然ビデオと未表示ビデオの活用が有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2022-01-18T17:14:54Z) - Speech Fusion to Face: Bridging the Gap Between Human's Vocal
Characteristics and Facial Imaging [19.285149134711382]
音声の発声特性に基づく顔画像生成は重要な課題である。
speech2faceの問題に対する既存の解決策は、限られた画像品質をレンダリングし、顔の類似性を維持するのに失敗する。
本稿では,顔への音声融合(SF2F)を提案し,音声特徴領域と現代画像生成モデルとの接続性の問題に対処する。
論文 参考訳(メタデータ) (2020-06-10T15:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。