論文の概要: InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing
- arxiv url: http://arxiv.org/abs/2508.14033v1
- Date: Tue, 19 Aug 2025 17:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:32.039
- Title: InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing
- Title(参考訳): InfiniteTalk:スパースフレームビデオダビングのためのオーディオ駆動ビデオ生成
- Authors: Shaoshu Yang, Zhe Kong, Feng Gao, Meng Cheng, Xiangyu Liu, Yong Zhang, Zhuoliang Kang, Wenhan Luo, Xunliang Cai, Ran He, Xiaoming Wei,
- Abstract要約: 我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
- 参考スコア(独自算出の注目度): 66.48064661467781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in video AIGC have ushered in a transformative era for audio-driven human animation. However, conventional video dubbing techniques remain constrained to mouth region editing, resulting in discordant facial expressions and body gestures that compromise viewer immersion. To overcome this limitation, we introduce sparse-frame video dubbing, a novel paradigm that strategically preserves reference keyframes to maintain identity, iconic gestures, and camera trajectories while enabling holistic, audio-synchronized full-body motion editing. Through critical analysis, we identify why naive image-to-video models fail in this task, particularly their inability to achieve adaptive conditioning. Addressing this, we propose InfiniteTalk, a streaming audio-driven generator designed for infinite-length long sequence dubbing. This architecture leverages temporal context frames for seamless inter-chunk transitions and incorporates a simple yet effective sampling strategy that optimizes control strength via fine-grained reference frame positioning. Comprehensive evaluations on HDTF, CelebV-HQ, and EMTD datasets demonstrate state-of-the-art performance. Quantitative metrics confirm superior visual realism, emotional coherence, and full-body motion synchronization.
- Abstract(参考訳): ビデオAIGCの最近のブレークスルーは、オーディオ駆動の人間のアニメーションの変革の時代を後押ししている。
しかし、従来のビデオダビング技術は口領域の編集に制約され続けており、不一致の表情や身体のジェスチャーが視聴者の没入を損なう。
この制限を克服するために、スパルスフレームビデオダビング(sparse-frame video dubbing)という、アイデンティティ、アイコン的ジェスチャー、カメラトラジェクトリを維持するために参照キーフレームを戦略的に保存する新しいパラダイムを導入し、音声同期フルボディモーション編集を可能にする。
批判的分析により、このタスクにおいて、ナイーブな画像-映像モデルが失敗する理由、特に適応的条件付けができない理由を同定する。
そこで我々は,無限長長列ダビング用に設計されたストリーミングオーディオ駆動ジェネレータであるInfiniteTalkを提案する。
このアーキテクチャは、時間的コンテキストフレームをシームレスなチャンク間遷移に利用し、きめ細かい参照フレーム位置決めによる制御強度を最適化する単純なサンプリング戦略を取り入れている。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
定量的測定により、優れた視覚リアリズム、感情的コヒーレンス、フルボディモーション同期が確認できる。
関連論文リスト
- MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。
MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。
EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文 参考訳(メタデータ) (2025-06-27T09:57:23Z) - SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers [25.36460340267922]
SkyReels-Audioは高忠実で時間的コヒーレントなポートレート映像を合成するための統一的なフレームワークである。
我々のフレームワークは、無限長の生成と編集をサポートし、マルチモーダル入力による多様かつ制御可能な条件付けを可能にする。
論文 参考訳(メタデータ) (2025-06-01T04:27:13Z) - OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [13.623360048766603]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。
提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。
AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文 参考訳(メタデータ) (2025-05-27T17:20:38Z) - Text2Story: Advancing Video Storytelling with Text Guidance [20.51001299249891]
我々は、自然なアクション遷移と構造化された物語を伴うシームレスなビデオ生成を可能にする、AIを活用した新しいストーリーテリングフレームワークを導入する。
まず、長ビデオのセグメント間の時間的一貫性を確保するために、双方向の時間重み付き潜在ブレンディング戦略を提案する。
次に,各拡散時間におけるシーンおよびアクションプロンプトの影響を適応的に調整する動的インフォームドプロンプト重み付け機構を導入する。
論文 参考訳(メタデータ) (2025-03-08T19:04:36Z) - Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [116.40704026922671]
事前訓練されたテキスト・ツー・ビデオモデルに基づいて構築されたファースト・イン・ファースト・アウト(FIFO)ビデオ拡散は,近年,チューニング不要な長ビデオ生成に有効なアプローチとして浮上している。
We propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structure and content (ject) consistency。
論文 参考訳(メタデータ) (2025-01-15T18:59:15Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2024-10-05T16:30:46Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。