論文の概要: Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation
- arxiv url: http://arxiv.org/abs/2503.18429v1
- Date: Mon, 24 Mar 2025 08:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:02.500990
- Title: Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation
- Title(参考訳): Teller: 自動回帰モーション生成によるリアルタイムストリーミングオーディオ駆動画像アニメーション
- Authors: Dingcheng Zhen, Shunshun Yin, Shiyang Qin, Hou Yi, Ziwei Zhang, Siyuan Liu, Gan Qi, Ming Tao,
- Abstract要約: リアルタイム・オーディオ駆動型ポートレートアニメーション(a.k.a, talking head)のための最初の自動回帰フレームワークを紹介する。
本稿では,自動回帰動作生成を備えた最初のストリーミングオーディオ駆動プロトライトアニメーションフレームワークであるTellerを提案する。
- 参考スコア(独自算出の注目度): 18.45773436423025
- License:
- Abstract: In this work, we introduce the first autoregressive framework for real-time, audio-driven portrait animation, a.k.a, talking head. Beyond the challenge of lengthy animation times, a critical challenge in realistic talking head generation lies in preserving the natural movement of diverse body parts. To this end, we propose Teller, the first streaming audio-driven protrait animation framework with autoregressive motion generation. Specifically, Teller first decomposes facial and body detail animation into two components: Facial Motion Latent Generation (FMLG) based on an autoregressive transfromer, and movement authenticity refinement using a Efficient Temporal Module (ETM).Concretely, FMLG employs a Residual VQ model to map the facial motion latent from the implicit keypoint-based model into discrete motion tokens, which are then temporally sliced with audio embeddings. This enables the AR tranformer to learn real-time, stream-based mappings from audio to motion. Furthermore, Teller incorporate ETM to capture finer motion details. This module ensures the physical consistency of body parts and accessories, such as neck muscles and earrings, improving the realism of these movements. Teller is designed to be efficient, surpassing the inference speed of diffusion-based models (Hallo 20.93s vs. Teller 0.92s for one second video generation), and achieves a real-time streaming performance of up to 25 FPS. Extensive experiments demonstrate that our method outperforms recent audio-driven portrait animation models, especially in small movements, as validated by human evaluations with a significant margin in quality and realism.
- Abstract(参考訳): 本研究では,リアルタイム・オーディオ駆動型ポートレートアニメーション,a.k.a,トーキングヘッドのための最初の自己回帰フレームワークを紹介する。
長いアニメーションタイムの挑戦を超えて、現実的なトーキングヘッド生成における重要な課題は、多様な身体部分の自然な動きを保存することである。
この目的のためにTellerを提案する。Tellerは、自動回帰モーション生成を備えた最初のストリーミングオーディオ駆動プロトライトアニメーションフレームワークである。
具体的には、テラーはまず顔と体の詳細アニメーションを、自己回帰変換器に基づく顔の動き遅延生成(FMLG)と、効率的なテンポラルモジュール(ETM)を用いた動きの信頼性向上の2つの構成要素に分解する。
具体的には、FMLGはResidual VQモデルを使用して、暗黙のキーポイントベースモデルから潜在する顔の動きを離散的なモーショントークンにマッピングする。
これにより、ARトランスフォーマーは、オーディオからモーションへのリアルタイムストリームベースのマッピングを学習することができる。
さらに、Tellerは、より細かい動きの詳細をキャプチャするためにETMを組み込んでいる。
このモジュールは、首の筋肉やイヤリングなどの身体部分やアクセサリーの物理的整合性を確保し、これらの動きの現実性を改善する。
Tellerは効率よく設計されており、拡散ベースのモデル(Hallo 20.93s vs. Teller 0.92s for one second video generation)の推論速度を超え、最大25FPSのリアルタイムストリーミング性能を実現している。
広汎な実験により,本手法は近年の音響駆動型ポートレートアニメーションモデル,特に小さな動きにおいて,品質とリアリズムに有意な差がある人間の評価により,優れた性能を示すことが示された。
関連論文リスト
- GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation [10.003794924759765]
JoyVASAは、音声駆動型顔アニメーションにおける顔の動きと頭部の動きを生成する拡散法である。
本研究では,静的な3次元顔表現から動的表情を分離する分離された顔表現フレームワークを提案する。
第2段階では、拡散変圧器を訓練し、文字の同一性によらず、オーディオキューから直接動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-11-14T06:13:05Z) - MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models
without Specific Tuning [92.33690050667475]
AnimateDiffは、モデル固有のチューニングを必要とせずに、パーソナライズされたT2Iモデルをアニメーションするためのフレームワークである。
我々は,AnimateDiffの軽量微調整技術であるMotionLoRAを提案する。
その結果,これらのモデルが視覚的品質と動きの多様性を保ちながら,時間的にスムーズなアニメーションクリップを生成するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2023-07-10T17:34:16Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Real-Time Cleaning and Refinement of Facial Animation Signals [0.0]
顔の動きの自然なダイナミクスを保存または復元するリアルタイムアニメーション精錬システムを提案する。
クリーンなアニメーションデータに対して,適切な顔のダイナミックスパターンを学習する,既製のリカレントニューラルネットワークアーキテクチャを活用する。
論文 参考訳(メタデータ) (2020-08-04T05:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。