論文の概要: MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice
- arxiv url: http://arxiv.org/abs/2503.05978v1
- Date: Fri, 07 Mar 2025 23:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:33.263871
- Title: MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice
- Title(参考訳): MagicInfinite: 言葉と音声で無期限の会話ビデオを生成する
- Authors: Hongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou,
- Abstract要約: MagicInfiniteは、多種多様な現実的な人間、フルボディの人物、スタイル化されたアニメキャラクターに高い忠実度をもたらす。
裏面のビューを含むさまざまな顔のポーズをサポートし、正確に話者を指定するための入力マスク付きの単文字または複数文字のアニメイトをサポートする。
- 参考スコア(独自算出の注目度): 32.11839495981128
- License:
- Abstract: We present MagicInfinite, a novel diffusion Transformer (DiT) framework that overcomes traditional portrait animation limitations, delivering high-fidelity results across diverse character types-realistic humans, full-body figures, and stylized anime characters. It supports varied facial poses, including back-facing views, and animates single or multiple characters with input masks for precise speaker designation in multi-character scenes. Our approach tackles key challenges with three innovations: (1) 3D full-attention mechanisms with a sliding window denoising strategy, enabling infinite video generation with temporal coherence and visual quality across diverse character styles; (2) a two-stage curriculum learning scheme, integrating audio for lip sync, text for expressive dynamics, and reference images for identity preservation, enabling flexible multi-modal control over long sequences; and (3) region-specific masks with adaptive loss functions to balance global textual control and local audio guidance, supporting speaker-specific animations. Efficiency is enhanced via our innovative unified step and cfg distillation techniques, achieving a 20x inference speed boost over the basemodel: generating a 10 second 540x540p video in 10 seconds or 720x720p in 30 seconds on 8 H100 GPUs, without quality loss. Evaluations on our new benchmark demonstrate MagicInfinite's superiority in audio-lip synchronization, identity preservation, and motion naturalness across diverse scenarios. It is publicly available at https://www.hedra.com/, with examples at https://magicinfinite.github.io/.
- Abstract(参考訳): 従来のポートレートアニメーションの制限を克服し,多種多様な文字タイプ-現実的な人間,フルボディの人物,スタイリングされたアニメキャラクターに高忠実な結果をもたらす,新しい拡散トランスフォーマー(DiT)フレームワークであるMagicInfiniteを提案する。
裏面のビューを含むさまざまな顔のポーズをサポートし、複数文字のシーンで正確に話者を指定するための入力マスクを備えた単体または複数文字のアニメイトをサポートする。
提案手法は3つの革新的課題に対処する:(1)スライディングウインドウによる3次元フルアテンション機構、; 時間的コヒーレンスと多様なキャラクタスタイルの視覚的品質を備えた無限のビデオ生成を可能にする; (2) リップシンクのための音声の統合; 表現的ダイナミクスのためのテキスト、およびアイデンティティ保存のための参照画像の統合; ; (3) 適応的損失関数を持つ領域固有のマスクは、グローバルテキスト制御と局所音声誘導のバランスをとる。
10秒で10秒の540x540pビデオを生成し、720x720pを8 H100 GPU上で30秒で生成する。
我々の新しいベンチマークでは、様々なシナリオにおけるオーディオ-リップ同期、アイデンティティ保存、動きの自然性においてMagicInfiniteが優れていることが示されている。
https://www.hedra.com/で公開されており、https://magicinfinite.github.io/で公開されている。
関連論文リスト
- VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization [20.728919218746363]
VQTalkerは、ベクトル量子化に基づく多言語音声ヘッド生成フレームワークである。
我々のアプローチは、人間の発話は有限個の異なる音の単位からなるという音素原理に基づいている。
VQTalkerは、ビデオ駆動と音声駆動の両方のシナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-13T06:14:57Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - Takin-ADA: Emotion Controllable Audio-Driven Animation with Canonical and Landmark Loss Optimization [2.4752150310191063]
Takin-ADAは、リアルタイムオーディオ駆動のポートレートアニメーションのための新しい2段階のアプローチである。
不要な表現のリークを低減しつつ、微妙な表現伝達を高める特殊な損失関数を導入する。
第2段階は、高度なオーディオ処理技術を使用して、リップシンク精度を向上させる。
論文 参考訳(メタデータ) (2024-10-18T08:39:56Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Learning Audio-Driven Viseme Dynamics for 3D Face Animation [17.626644507523963]
入力音声からリアルな唇同期3Dアニメーションを生成できる,新しい音声駆動型顔アニメーション手法を提案する。
提案手法は,音声ビデオからビセメダイナミクスを学習し,アニメーターフレンドリーなビセメ曲線を生成し,多言語音声入力をサポートする。
論文 参考訳(メタデータ) (2023-01-15T09:55:46Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文 参考訳(メタデータ) (2021-12-10T04:21:59Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。