論文の概要: Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization and Temporal Motion Modulation
- arxiv url: http://arxiv.org/abs/2505.23525v1
- Date: Thu, 29 May 2025 15:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.92634
- Title: Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization and Temporal Motion Modulation
- Title(参考訳): Hallo4: 直接選好最適化と時間運動変調による高忠実度動的ポートレートアニメーション
- Authors: Jiahao Cui, Yan Chen, Mingwang Xu, Hanlin Shang, Yuxuan Chen, Yun Zhan, Zilong Dong, Yao Yao, Jingdong Wang, Siyu Zhu,
- Abstract要約: 人中心アニメーションに適した直接選好最適化を提案する。
第二に、提案した時間運動変調は、分解ミスマッチを解消する。
実験では, 口唇音の同期, 表情の鮮明さ, 体の動きのコヒーレンスをベースライン法より明らかに改善した。
- 参考スコア(独自算出の注目度): 26.597877504216196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating highly dynamic and photorealistic portrait animations driven by audio and skeletal motion remains challenging due to the need for precise lip synchronization, natural facial expressions, and high-fidelity body motion dynamics. We propose a human-preference-aligned diffusion framework that addresses these challenges through two key innovations. First, we introduce direct preference optimization tailored for human-centric animation, leveraging a curated dataset of human preferences to align generated outputs with perceptual metrics for portrait motion-video alignment and naturalness of expression. Second, the proposed temporal motion modulation resolves spatiotemporal resolution mismatches by reshaping motion conditions into dimensionally aligned latent features through temporal channel redistribution and proportional feature expansion, preserving the fidelity of high-frequency motion details in diffusion-based synthesis. The proposed mechanism is complementary to existing UNet and DiT-based portrait diffusion approaches, and experiments demonstrate obvious improvements in lip-audio synchronization, expression vividness, body motion coherence over baseline methods, alongside notable gains in human preference metrics. Our model and source code can be found at: https://github.com/xyz123xyz456/hallo4.
- Abstract(参考訳): 音声と骨格の動きによって駆動される高ダイナミックでフォトリアリスティックな肖像画を生成することは、正確な唇同期、自然な表情、高忠実度体の動きのダイナミクスを必要とするため、依然として困難である。
本稿では,2つの重要なイノベーションを通じて,これらの課題に対処する,ヒューマン・リファレンス・アライン・ディフュージョン・フレームワークを提案する。
まず、人間中心のアニメーションに適した直接選好最適化を導入し、人間の選好のキュレートされたデータセットを利用して、生成した出力を、ポートレート動画のアライメントと表現の自然性のための知覚的指標と整合させる。
第二に、時間的動き変調は、時間的チャネル再分配と比例的特徴展開を通じて、運動条件を次元的に整列した潜在特徴に変形させることにより、時空間分解ミスマッチを解消し、拡散ベース合成における高周波運動詳細の忠実性を維持する。
提案手法は既存のUNetおよびDiTに基づくポートレート拡散法と相補的であり、人間の嗜好指標の顕著な向上とともに、リップオーディオ同期、表現の鮮明さ、ベースライン法に対する身体運動のコヒーレンスの改善が明らかであることを示す実験である。
私たちのモデルとソースコードは、https://github.com/xyz123xyz456/hallo4.comで確認できます。
関連論文リスト
- AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning [95.07708090428814]
本稿では,一段階拡散モデルREWINDを提案する。
身体中心運動と手の動きの相関を効果的にモデル化する。
また、ターゲットアイデンティティの小さなポーズ例に基づく新しいアイデンティティ条件付け手法を提案し、動き推定品質をさらに向上させる。
論文 参考訳(メタデータ) (2025-04-07T11:44:11Z) - EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation [58.41979933166173]
EvAnimateは、条件付き人間の画像アニメーションにおいて、イベントストリームを堅牢で正確なモーションキューとして活用する最初の方法である。
高品質で時間的コヒーレントなアニメーションはデュアルブランチアーキテクチャによって実現される。
実験結果から,従来の映像由来のキューが短いシナリオにおいて,EvAnimateは時間的忠実度が高く,頑健なパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2025-03-24T11:05:41Z) - Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency [15.841490425454344]
本稿では,Loopy という,エンドツーエンドの音声のみの条件付きビデオ拡散モデルを提案する。
具体的には,ループ内時間モジュールとオーディオ・トゥ・ラテントモジュールを設計し,長期動作情報を活用する。
論文 参考訳(メタデータ) (2024-09-04T11:55:14Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。