論文の概要: AvatarSync: Rethinking Talking-Head Animation through Autoregressive Perspective
- arxiv url: http://arxiv.org/abs/2509.12052v1
- Date: Mon, 15 Sep 2025 15:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.373441
- Title: AvatarSync: Rethinking Talking-Head Animation through Autoregressive Perspective
- Title(参考訳): AvatarSync: 自己回帰的視点によるトーキング・ヘッドアニメーションの再考
- Authors: Yuchen Deng, Xiuyang Wu, Hai-Tao Zheng, Suiyang Zhang, Yi He, Yuxing Han,
- Abstract要約: AvatarSyncは、現実的で制御可能なトーキーヘッドアニメーションを生成する音素表現のための自動回帰フレームワークである。
我々は、選択状態空間モデルに基づくタイムスタンプ対応戦略を導入し、効率的な双方向コンテキスト推論を可能にする。
AvatarSyncは、視覚的忠実度、時間的整合性、計算効率において、既存のトーキングヘッドアニメーション手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.69417162113696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing talking-head animation approaches based on Generative Adversarial Networks (GANs) or diffusion models often suffer from inter-frame flicker, identity drift, and slow inference. These limitations inherent to their video generation pipelines restrict their suitability for applications. To address this, we introduce AvatarSync, an autoregressive framework on phoneme representations that generates realistic and controllable talking-head animations from a single reference image, driven directly text or audio input. In addition, AvatarSync adopts a two-stage generation strategy, decoupling semantic modeling from visual dynamics, which is a deliberate "Divide and Conquer" design. The first stage, Facial Keyframe Generation (FKG), focuses on phoneme-level semantic representation by leveraging the many-to-one mapping from text or audio to phonemes. A Phoneme-to-Visual Mapping is constructed to anchor abstract phonemes to character-level units. Combined with a customized Text-Frame Causal Attention Mask, the keyframes are generated. The second stage, inter-frame interpolation, emphasizes temporal coherence and visual smoothness. We introduce a timestamp-aware adaptive strategy based on a selective state space model, enabling efficient bidirectional context reasoning. To support deployment, we optimize the inference pipeline to reduce latency without compromising visual fidelity. Extensive experiments show that AvatarSync outperforms existing talking-head animation methods in visual fidelity, temporal consistency, and computational efficiency, providing a scalable and controllable solution.
- Abstract(参考訳): GAN(Generative Adversarial Networks)や拡散モデルに基づく既存のトーキングヘッドアニメーションアプローチは、フレーム間のフリック、アイデンティティのドリフト、遅い推論に悩まされることが多い。
これらの制限は、ビデオ生成パイプラインに固有のもので、アプリケーションに対する適合性を制限している。
そこで本研究では,音素表現の自己回帰フレームワークであるAvatarSyncを紹介し,単一の参照画像から現実的で制御可能な対話ヘッドアニメーションを生成し,直接テキストや音声入力を駆動する。
さらに、AvatarSyncは2段階生成戦略を採用し、視覚力学からセマンティックモデリングを分離する。
第1段階であるFKGは、テキストや音声から音素への多対一マッピングを活用することで、音素レベルの意味表現に焦点を当てている。
抽象音素を文字単位に固定するために,Phoneme-to-Visual Mappingを構築する。
カスタマイズされたText-Frame Causal Attention Maskと組み合わせて、キーフレームを生成する。
第2段階はフレーム間補間であり、時間的コヒーレンスと視覚的滑らかさを強調する。
我々は、選択状態空間モデルに基づくタイムスタンプ対応戦略を導入し、効率的な双方向コンテキスト推論を可能にする。
デプロイメントをサポートするため、視覚的忠実さを損なうことなく、推論パイプラインを最適化してレイテンシを低減する。
大規模な実験により、AvatarSyncは視覚的忠実度、時間的一貫性、計算効率において既存のトーキングヘッドアニメーション手法よりも優れており、スケーラブルで制御可能なソリューションを提供する。
関連論文リスト
- InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - DiTalker: A Unified DiT-based Framework for High-Quality and Speaking Styles Controllable Portrait Animation [13.089363781114477]
DiTalkerは、スタイル制御可能なポートレートアニメーションのための統合されたDiTベースのフレームワークである。
音声と音声のスタイルを2つの平行なクロスアテンション層を介して分離するオーディオスタイル統合モジュールを提案する。
リップ同期と話し方制御性の観点から,DiTalkerの優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-07-29T08:23:56Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [66.97034863216892]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [34.43272121705662]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。
提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。
PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文 参考訳(メタデータ) (2024-12-10T18:51:31Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。