Fugu-MT 論文翻訳(概要): AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective

論文の概要: AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective

arxiv url: http://arxiv.org/abs/2509.12052v2
Date: Thu, 16 Oct 2025 16:37:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-17 16:37:10.483546
Title: AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective
Title（参考訳）: AvatarSync: 音素ガイドによる自己回帰的視点によるトーキングヘッドアニメーションの再考
Authors: Yuchen Deng, Xiuyang Wu, Hai-Tao Zheng, Suiyang Zhang, Yi He, Yuxing Han,
Abstract要約: AvatarSyncは音素表現の自己回帰フレームワークであり、単一の参照画像からリアルなトーキングヘッドアニメーションを生成する。 AvatarSyncは,視覚的忠実度,時間的整合性,計算効率において,既存のトーキングヘッドアニメーション手法よりも優れていることを示す。
参考スコア（独自算出の注目度）: 15.69417162113696
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Talking-head animation focuses on generating realistic facial videos from audio input. Following Generative Adversarial Networks (GANs), diffusion models have become the mainstream, owing to their robust generative capacities. However, inherent limitations of the diffusion process often lead to inter-frame flicker and slow inference, restricting their practical deployment. To address this, we introduce AvatarSync, an autoregressive framework on phoneme representations that generates realistic and controllable talking-head animations from a single reference image, driven directly by text or audio input. To mitigate flicker and ensure continuity, AvatarSync leverages an autoregressive pipeline that enhances temporal modeling. In addition, to ensure controllability, we introduce phonemes, which are the basic units of speech sounds, and construct a many-to-one mapping from text/audio to phonemes, enabling precise phoneme-to-visual alignment. Additionally, to further accelerate inference, we adopt a two-stage generation strategy that decouples semantic modeling from visual dynamics, and incorporate a customized Phoneme-Frame Causal Attention Mask to support multi-step parallel acceleration. Extensive experiments conducted on both Chinese (CMLR) and English (HDTF) datasets demonstrate that AvatarSync outperforms existing talking-head animation methods in visual fidelity, temporal consistency, and computational efficiency, providing a scalable and controllable solution.
Abstract（参考訳）: トーキングヘッドアニメーションは、音声入力からリアルな顔ビデオを生成することに焦点を当てている。 GAN(Generative Adversarial Networks)に続いて、拡散モデルが主流となっている。しかしながら、拡散プロセスの固有の制限は、しばしばフレーム間のフリックと遅い推論を引き起こし、実際の展開を制限する。そこで本研究では,テキストや音声入力によって直接駆動される単一の参照画像から,現実的で制御可能な対話ヘッドアニメーションを生成する,音素表現の自己回帰フレームワークであるAvatarSyncを紹介する。フレッカを緩和し、連続性を確保するために、AvatarSyncは、時間的モデリングを強化する自動回帰パイプラインを活用する。さらに,制御性を確保するため,音声の基本単位である音素を導入し,テキスト/音声から音素への多対一マッピングを構築し,正確な音素対視覚アライメントを実現する。さらに、推論をさらに加速するために、視覚力学からセマンティックモデリングを分離する2段階生成戦略を採用し、マルチステップ並列アクセラレーションをサポートするために、カスタマイズされたPhonme-Frame Causal Attention Maskを組み込んだ。中国語(CMLR)と英語(HDTF)の両方のデータセットで実施された大規模な実験は、AvatarSyncが既存のトーキングヘッドアニメーション手法を視覚的忠実性、時間的一貫性、計算効率で上回り、スケーラブルで制御可能なソリューションを提供することを示した。

関連論文リスト

InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。 HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文参考訳（メタデータ） (2025-08-19T17:55:23Z)
Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。 Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-04T12:50:22Z)
DiTalker: A Unified DiT-based Framework for High-Quality and Speaking Styles Controllable Portrait Animation [13.089363781114477]
DiTalkerは、スタイル制御可能なポートレートアニメーションのための統合されたDiTベースのフレームワークである。音声と音声のスタイルを2つの平行なクロスアテンション層を介して分離するオーディオスタイル統合モジュールを提案する。リップ同期と話し方制御性の観点から,DiTalkerの優位性を示す実験を行った。
論文参考訳（メタデータ） (2025-07-29T08:23:56Z)
Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [66.97034863216892]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-07T06:54:44Z)
AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。 AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-21T03:28:53Z)
OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文参考訳（メタデータ） (2025-04-03T09:48:13Z)
PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [34.43272121705662]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。 PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文参考訳（メタデータ） (2024-12-10T18:51:31Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文参考訳（メタデータ） (2024-06-13T04:33:20Z)
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文参考訳（メタデータ） (2024-03-04T09:59:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。