論文の概要: PersonaLive! Expressive Portrait Image Animation for Live Streaming
- arxiv url: http://arxiv.org/abs/2512.11253v1
- Date: Fri, 12 Dec 2025 03:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.641487
- Title: PersonaLive! Expressive Portrait Image Animation for Live Streaming
- Title(参考訳): パーソナライブ! ライブストリーミングのための表現的ポートレート画像アニメーション
- Authors: Zhiyuan Li, Chi-Man Pun, Chen Fang, Jue Wang, Xiaodong Cun,
- Abstract要約: PersonaLiveは、リアルタイムのポートレートアニメーションをストリーミングするための、新しい拡散ベースのフレームワークである。
まず,暗黙の表情と3次元の暗黙のキーポイントというハイブリッドな暗黙の信号を用いて,表現力のある画像レベルの動作制御を実現する。
実験により、PersonaLiveは、従来の拡散ベースのポートレートアニメーションモデルよりも最大7-22倍のスピードアップで最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 53.63615310186964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current diffusion-based portrait animation models predominantly focus on enhancing visual quality and expression realism, while overlooking generation latency and real-time performance, which restricts their application range in the live streaming scenario. We propose PersonaLive, a novel diffusion-based framework towards streaming real-time portrait animation with multi-stage training recipes. Specifically, we first adopt hybrid implicit signals, namely implicit facial representations and 3D implicit keypoints, to achieve expressive image-level motion control. Then, a fewer-step appearance distillation strategy is proposed to eliminate appearance redundancy in the denoising process, greatly improving inference efficiency. Finally, we introduce an autoregressive micro-chunk streaming generation paradigm equipped with a sliding training strategy and a historical keyframe mechanism to enable low-latency and stable long-term video generation. Extensive experiments demonstrate that PersonaLive achieves state-of-the-art performance with up to 7-22x speedup over prior diffusion-based portrait animation models.
- Abstract(参考訳): 現在の拡散型ポートレートアニメーションモデルは、主に視覚的品質と表現リアリズムの向上に焦点を合わせ、生成遅延とリアルタイムパフォーマンスを見越して、ライブストリーミングシナリオにおけるアプリケーション範囲を制限する。
マルチステージ・トレーニング・レシピを用いたリアルタイム・ポートレート・アニメーションのストリーミングのための新しい拡散型フレームワークであるPersonaLiveを提案する。
具体的には、まず、暗黙の表情と3次元の暗黙のキーポイントというハイブリッドな暗黙の信号を用いて、表現力のある画像レベルの動き制御を実現する。
そこで, 脱臭工程における外観冗長性を解消し, 推論効率を大幅に向上させるため, 低段蒸留方式を提案する。
最後に、スライディングトレーニング戦略と歴史的キーフレーム機構を備えた自己回帰型マイクロチャンクストリーミング生成パラダイムを導入し、低レイテンシと安定した長期ビデオ生成を実現する。
大規模な実験により、PersonaLiveは従来の拡散ベースのポートレートアニメーションモデルよりも最大7-22倍のスピードアップで最先端のパフォーマンスを達成した。
関連論文リスト
- TalkingPose: Efficient Face and Gesture Animation with Feedback-guided Diffusion Model [18.910745982208965]
TalkingPoseは、時間的に一貫した人間の上半身アニメーションを作成するための新しい拡散ベースのフレームワークである。
画像ベース拡散モデルに基づくフィードバック駆動機構を導入し,連続的な動きを確実にし,時間的コヒーレンスを高める。
また、人間の上半身アニメーションの新しいベンチマークとして、包括的で大規模なデータセットも導入した。
論文 参考訳(メタデータ) (2025-11-30T14:26:24Z) - StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model [73.30619724574642]
音声駆動型3D顔アニメーションは、音声入力によって駆動される現実的で同期された顔の動きを生成することを目的としている。
近年,3次元顔アニメーションに音声条件拡散モデルが採用されている。
本稿では,ストリーミング方式で音声を処理する自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-11-18T07:55:16Z) - Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation [58.41979933166173]
EvAnimateは、条件付き人間の画像アニメーションにおいて、イベントストリームを堅牢で正確なモーションキューとして活用する最初の方法である。
高品質で時間的コヒーレントなアニメーションはデュアルブランチアーキテクチャによって実現される。
実験結果から,従来の映像由来のキューが短いシナリオにおいて,EvAnimateは時間的忠実度が高く,頑健なパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2025-03-24T11:05:41Z) - JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation [10.003794924759765]
JoyVASAは、音声駆動型顔アニメーションにおける顔の動きと頭部の動きを生成する拡散法である。
本研究では,静的な3次元顔表現から動的表情を分離する分離された顔表現フレームワークを提案する。
第2段階では、拡散変圧器を訓練し、文字の同一性によらず、オーディオキューから直接動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-11-14T06:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。