論文の概要: FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction
- arxiv url: http://arxiv.org/abs/2512.16900v1
- Date: Thu, 18 Dec 2025 18:56:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.239733
- Title: FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction
- Title(参考訳): FlashPortrait: 適応的な遅延予測を備えた無限のポートレートアニメーションを6倍高速化する
- Authors: Shuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu,
- Abstract要約: FlashPortraitは、ID保存、無限長ビデオの合成が可能なエンドツーエンドのビデオ拡散トランスフォーマーである。
推論速度で最大6倍の加速を達成する。
- 参考スコア(独自算出の注目度): 67.84018741719632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current diffusion-based acceleration methods for long-portrait animation struggle to ensure identity (ID) consistency. This paper presents FlashPortrait, an end-to-end video diffusion transformer capable of synthesizing ID-preserving, infinite-length videos while achieving up to 6x acceleration in inference speed. In particular, FlashPortrait begins by computing the identity-agnostic facial expression features with an off-the-shelf extractor. It then introduces a Normalized Facial Expression Block to align facial features with diffusion latents by normalizing them with their respective means and variances, thereby improving identity stability in facial modeling. During inference, FlashPortrait adopts a dynamic sliding-window scheme with weighted blending in overlapping areas, ensuring smooth transitions and ID consistency in long animations. In each context window, based on the latent variation rate at particular timesteps and the derivative magnitude ratio among diffusion layers, FlashPortrait utilizes higher-order latent derivatives at the current timestep to directly predict latents at future timesteps, thereby skipping several denoising steps and achieving 6x speed acceleration. Experiments on benchmarks show the effectiveness of FlashPortrait both qualitatively and quantitatively.
- Abstract(参考訳): 長画像アニメーションのための現在の拡散に基づく加速度法は、IDの整合性を確保するのに苦労している。
本稿では,最大6倍の高速化を実現しつつ,ID保存・無限長ビデオの合成が可能なエンドツーエンドビデオ拡散変換器であるFlashPortraitを提案する。
特に、FlashPortraitは、既製の抽出器を使って、アイデンティティに依存しない表情機能を計算することから始まる。
次に、顔の特徴を拡散潜伏剤と整合させる正規化表情ブロックを導入し、それらをそれぞれの手段とばらつきで正規化することにより、顔のモデリングにおけるアイデンティティ安定性を向上させる。
推論中、FlashPortraitは重み付けされたブレンディングをオーバーラップしたダイナミックなスライディングウィンドウスキームを採用し、長いアニメーションでスムーズな遷移とID一貫性を確保する。
各コンテキストウィンドウにおいて、特定の時間ステップにおける潜時変動率と拡散層間の微分等級比に基づいて、FlashPortraitは、現在の時間ステップにおける高次潜時微分を利用して、将来の時間ステップで潜時を直接予測し、いくつかの遅延ステップをスキップし、6倍の速度加速を達成する。
ベンチマークの実験では、質的にも定量的にもFlashPortraitの有効性が示されている。
関連論文リスト
- PersonaLive! Expressive Portrait Image Animation for Live Streaming [53.63615310186964]
PersonaLiveは、リアルタイムのポートレートアニメーションをストリーミングするための、新しい拡散ベースのフレームワークである。
まず,暗黙の表情と3次元の暗黙のキーポイントというハイブリッドな暗黙の信号を用いて,表現力のある画像レベルの動作制御を実現する。
実験により、PersonaLiveは、従来の拡散ベースのポートレートアニメーションモデルよりも最大7-22倍のスピードアップで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-12T03:24:40Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - Follow-Your-Emoji-Faster: Towards Efficient, Fine-Controllable, and Expressive Freestyle Portrait Animation [72.20148916920944]
Follow-Your-Emoji-Fasterは、顔のランドマークによって駆動されるポートレートアニメーションのための効率的な拡散ベースのフレームワークである。
我々のモデルは、現実の顔、漫画、彫刻、動物など、さまざまな肖像画タイプにまたがる、コントロール可能な、表現可能なアニメーションをサポートします。
EmojiBench++は、さまざまなポートレート、動画の駆動、ランドマークシーケンスで構成される、より包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-09-20T11:09:01Z) - Beyond Wide-Angle Images: Structure-to-Detail Video Portrait Correction via Unsupervised Spatiotemporal Adaptation [30.50527916658749]
そこで我々は,ImagePC という構造と細かな人物像の補正モデルを提案する。
変換器の長距離認識と拡散モデルの多段階分極を統一的なフレームワークに統合する。
ビデオラベル取得の高コストを考えると、未ラベル広角ビデオ(終値ビデオPC)に ImagePC を再利用する。
論文 参考訳(メタデータ) (2025-04-01T03:49:59Z) - Unlock Pose Diversity: Accurate and Efficient Implicit Keypoint-based Spatiotemporal Diffusion for Audio-driven Talking Portrait [30.481914742000697]
教師なし暗黙的3D鍵点と時間拡散モデルを組み合わせた最初のフレームワークであるKDTalkerを提案する。
KDTalkerは顔情報密度に適応し、様々な頭部ポーズをモデル化し、柔軟に顔の詳細をキャプチャする拡散プロセスを可能にする。
論文 参考訳(メタデータ) (2025-03-17T09:18:31Z) - KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame Interpolation [37.27908280809964]
KeyFaceは、顔アニメーションのための新しい2段階拡散ベースのフレームワークである。
最初の段階では、モデルは遷移の間のギャップを埋め、スムーズかつ時間的コヒーレンスを保証する。
リアリズムをさらに強化するため、連続的な感情表現を取り入れ、幅広い非音声発声(NSV)を扱う。
実験の結果,KeyFaceは長期間にわたって自然なコヒーレントな顔アニメーションを生成する上で,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-03-03T16:31:55Z) - StableAnimator: High-Quality Identity-Preserving Human Image Animation [64.63765800569935]
本稿では,最初のエンドツーエンドID保存ビデオ拡散フレームワークであるStableAnimatorについて述べる。
ポストプロセッシングなしで高品質なビデオを合成し、参照画像とポーズのシーケンスに条件付けする。
推論中,顔の質をより高めるためにハミルトン・ヤコビベルマン(HJB)方程式に基づく新しい最適化を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。