論文の概要: SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2506.00830v1
- Date: Sun, 01 Jun 2025 04:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.687075
- Title: SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers
- Title(参考訳): SkyReels-Audio:ビデオ拡散トランスフォーマーにおける音声による発話ポートレイト
- Authors: Zhengcong Fei, Hao Jiang, Di Qiu, Baoxuan Gu, Youqiang Zhang, Jiahua Wang, Jialin Bai, Debang Li, Mingyuan Fan, Guibin Chen, Yahui Zhou,
- Abstract要約: SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。
我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
- 参考スコア(独自算出の注目度): 25.36460340267922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generation and editing of audio-conditioned talking portraits guided by multimodal inputs, including text, images, and videos, remains under explored. In this paper, we present SkyReels-Audio, a unified framework for synthesizing high-fidelity and temporally coherent talking portrait videos. Built upon pretrained video diffusion transformers, our framework supports infinite-length generation and editing, while enabling diverse and controllable conditioning through multimodal inputs. We employ a hybrid curriculum learning strategy to progressively align audio with facial motion, enabling fine-grained multimodal control over long video sequences. To enhance local facial coherence, we introduce a facial mask loss and an audio-guided classifier-free guidance mechanism. A sliding-window denoising approach further fuses latent representations across temporal segments, ensuring visual fidelity and temporal consistency across extended durations and diverse identities. More importantly, we construct a dedicated data pipeline for curating high-quality triplets consisting of synchronized audio, video, and textual descriptions. Comprehensive benchmark evaluations show that SkyReels-Audio achieves superior performance in lip-sync accuracy, identity consistency, and realistic facial dynamics, particularly under complex and challenging conditions.
- Abstract(参考訳): テキスト、画像、ビデオを含むマルチモーダル入力で案内される音声条件の音声画像の生成と編集は、現在検討中である。
本稿では,高忠実度・時間的コヒーレントな肖像画映像を合成するための統合フレームワークであるSkyReels-Audioを提案する。
事前訓練されたビデオ拡散変換器を基盤として,多モード入力による多種多様な制御可能な条件設定を実現するとともに,無限長の生成と編集をサポートする。
我々は、音声と顔の動きを段階的に整合させるために、ハイブリッドカリキュラム学習戦略を採用し、長いビデオシーケンスに対してきめ細かいマルチモーダル制御を可能にする。
局所的な顔のコヒーレンスを高めるために,顔のマスクの喪失と音声誘導型分類器フリー誘導機構を導入する。
スライディング・ウインドウ・デノイング・アプローチは、時間セグメントにまたがる潜在表現をさらに融合させ、長期にわたる視覚的忠実さと時間的一貫性を確保する。
さらに重要なことは、同期オーディオ、ビデオ、テキスト記述からなる高品質な三つ子をキュレートするための専用データパイプラインを構築することである。
総合的なベンチマーク評価によると、SkyReels-Audioは、特に複雑で困難な条件下で、リップシンクの精度、アイデンティティの整合性、現実的な顔のダイナミクスにおいて優れたパフォーマンスを達成する。
関連論文リスト
- OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [13.623360048766603]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。
提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。
AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文 参考訳(メタデータ) (2025-05-27T17:20:38Z) - SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - LetsTalk: Latent Diffusion Transformer for Talking Video Synthesis [38.08071302910815]
LetsTalkは、モジュラー時間的および空間的注意機構を組み込んだ拡散トランスフォーマーで、マルチモーダルをマージし、空間的時間的一貫性を高める。
本稿では,画像,音声,映像のモダリティの違いに応じて適切な解を提案する。
我々の実験は、多様性と活力を高めた時間的コヒーレントでリアルなビデオを生成することを実証した。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。