論文の概要: AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective
- arxiv url: http://arxiv.org/abs/2509.12052v2
- Date: Thu, 16 Oct 2025 16:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.483546
- Title: AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective
- Title(参考訳): AvatarSync: 音素ガイドによる自己回帰的視点によるトーキングヘッドアニメーションの再考
- Authors: Yuchen Deng, Xiuyang Wu, Hai-Tao Zheng, Suiyang Zhang, Yi He, Yuxing Han,
- Abstract要約: AvatarSyncは音素表現の自己回帰フレームワークであり、単一の参照画像からリアルなトーキングヘッドアニメーションを生成する。
AvatarSyncは,視覚的忠実度,時間的整合性,計算効率において,既存のトーキングヘッドアニメーション手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.69417162113696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking-head animation focuses on generating realistic facial videos from audio input. Following Generative Adversarial Networks (GANs), diffusion models have become the mainstream, owing to their robust generative capacities. However, inherent limitations of the diffusion process often lead to inter-frame flicker and slow inference, restricting their practical deployment. To address this, we introduce AvatarSync, an autoregressive framework on phoneme representations that generates realistic and controllable talking-head animations from a single reference image, driven directly by text or audio input. To mitigate flicker and ensure continuity, AvatarSync leverages an autoregressive pipeline that enhances temporal modeling. In addition, to ensure controllability, we introduce phonemes, which are the basic units of speech sounds, and construct a many-to-one mapping from text/audio to phonemes, enabling precise phoneme-to-visual alignment. Additionally, to further accelerate inference, we adopt a two-stage generation strategy that decouples semantic modeling from visual dynamics, and incorporate a customized Phoneme-Frame Causal Attention Mask to support multi-step parallel acceleration. Extensive experiments conducted on both Chinese (CMLR) and English (HDTF) datasets demonstrate that AvatarSync outperforms existing talking-head animation methods in visual fidelity, temporal consistency, and computational efficiency, providing a scalable and controllable solution.
- Abstract(参考訳): トーキングヘッドアニメーションは、音声入力からリアルな顔ビデオを生成することに焦点を当てている。
GAN(Generative Adversarial Networks)に続いて、拡散モデルが主流となっている。
しかしながら、拡散プロセスの固有の制限は、しばしばフレーム間のフリックと遅い推論を引き起こし、実際の展開を制限する。
そこで本研究では,テキストや音声入力によって直接駆動される単一の参照画像から,現実的で制御可能な対話ヘッドアニメーションを生成する,音素表現の自己回帰フレームワークであるAvatarSyncを紹介する。
フレッカを緩和し、連続性を確保するために、AvatarSyncは、時間的モデリングを強化する自動回帰パイプラインを活用する。
さらに,制御性を確保するため,音声の基本単位である音素を導入し,テキスト/音声から音素への多対一マッピングを構築し,正確な音素対視覚アライメントを実現する。
さらに、推論をさらに加速するために、視覚力学からセマンティックモデリングを分離する2段階生成戦略を採用し、マルチステップ並列アクセラレーションをサポートするために、カスタマイズされたPhonme-Frame Causal Attention Maskを組み込んだ。
中国語(CMLR)と英語(HDTF)の両方のデータセットで実施された大規模な実験は、AvatarSyncが既存のトーキングヘッドアニメーション手法を視覚的忠実性、時間的一貫性、計算効率で上回り、スケーラブルで制御可能なソリューションを提供することを示した。
関連論文リスト
- JoyAvatar: Unlocking Highly Expressive Avatars via Harmonized Text-Audio Conditioning [18.72712280434528]
JoyAvatarは長時間のアバタービデオを生成することができるフレームワークである。
そこで本研究では,モデルに固有のテキスト制御性を持たせるための,ツイン教師強化トレーニングアルゴリズムを提案する。
トレーニング中、マルチモーダル条件の強度を動的に調整する。
論文 参考訳(メタデータ) (2026-01-31T13:00:57Z) - PersonaLive! Expressive Portrait Image Animation for Live Streaming [53.63615310186964]
PersonaLiveは、リアルタイムのポートレートアニメーションをストリーミングするための、新しい拡散ベースのフレームワークである。
まず,暗黙の表情と3次元の暗黙のキーポイントというハイブリッドな暗黙の信号を用いて,表現力のある画像レベルの動作制御を実現する。
実験により、PersonaLiveは、従来の拡散ベースのポートレートアニメーションモデルよりも最大7-22倍のスピードアップで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-12T03:24:40Z) - TalkingPose: Efficient Face and Gesture Animation with Feedback-guided Diffusion Model [18.910745982208965]
TalkingPoseは、時間的に一貫した人間の上半身アニメーションを作成するための新しい拡散ベースのフレームワークである。
画像ベース拡散モデルに基づくフィードバック駆動機構を導入し,連続的な動きを確実にし,時間的コヒーレンスを高める。
また、人間の上半身アニメーションの新しいベンチマークとして、包括的で大規模なデータセットも導入した。
論文 参考訳(メタデータ) (2025-11-30T14:26:24Z) - MAGIC-Talk: Motion-aware Audio-Driven Talking Face Generation with Customizable Identity Control [48.94486508604052]
MAGIC-Talkは、カスタマイズ可能な会話顔生成のためのワンショット拡散ベースのフレームワークである。
ReferenceNetはIDを保存し、テキストプロンプトによるきめ細かい顔の編集を可能にする。
AnimateNetは構造化された動き前処理を用いて動きコヒーレンスを向上させる。
論文 参考訳(メタデータ) (2025-10-26T19:49:31Z) - Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - Think2Sing: Orchestrating Structured Motion Subtitles for Singing-Driven 3D Head Animation [69.50178144839275]
歌唱はより豊かな感情的なニュアンス、動的な韻律、歌詞に基づく意味論を含む。
既存の音声駆動アプローチは、しばしば過度に単純化され、感情的に平坦で、意味的に一貫性のない結果をもたらす。
Think2Singは、歌詞と音響の両方に調和したセマンティックコヒーレントで時間的に一貫した3Dヘッドアニメーションを生成する。
論文 参考訳(メタデータ) (2025-09-02T12:59:27Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - X-Actor: Emotional and Expressive Long-Range Portrait Acting from Audio [27.619816538121327]
X-アクターは、単一の参照画像と入力オーディオクリップから、生き生きとした感情的に表現された音声ヘッドビデオを生成する。
視覚的・アイデンティティ的手がかりから切り離されたコンパクトな顔動作潜時空間で操作することにより、自己回帰拡散モデルは、音声と顔の動きの長距離相関を効果的に捉えることができる。
X-Actorは、標準的なトーキングヘッドアニメーションを超越した、魅力的なシネマティックなパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-08-04T22:57:01Z) - Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - DiTalker: A Unified DiT-based Framework for High-Quality and Speaking Styles Controllable Portrait Animation [13.089363781114477]
DiTalkerは、スタイル制御可能なポートレートアニメーションのための統合されたDiTベースのフレームワークである。
音声と音声のスタイルを2つの平行なクロスアテンション層を介して分離するオーディオスタイル統合モジュールを提案する。
リップ同期と話し方制御性の観点から,DiTalkerの優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-07-29T08:23:56Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [66.97034863216892]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation [34.43272121705662]
そこで我々は,PortraitTalkという,ワンショット音声駆動音声生成フレームワークを新たに導入した。
提案手法は,IdentityNetとAnimateNetの2つの主要コンポーネントからなる遅延拡散フレームワークを利用する。
PortraitTalkの鍵となる革新は、疎結合のクロスアテンション機構を通じてテキストプロンプトを組み込むことである。
論文 参考訳(メタデータ) (2024-12-10T18:51:31Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement [8.973545189395953]
本研究では,拡散に基づく手法による視覚的に魅力的な時間同期アニメーションの作成に焦点をあてる。
我々は音声の特徴を別々に処理し、画像の出自に関わらず、口、目、頭の動きを暗黙的に制御する対応する制御ゲートを導出する。
アニメーションポートレートの忠実さ,リップシンクの正確さ,および本手法により達成された適切な動作変化の大幅な改善により,任意の言語でポートレートをアニメーションするための汎用ツールとなった。
論文 参考訳(メタデータ) (2024-07-26T08:30:06Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。