論文の概要: InfinityHuman: Towards Long-Term Audio-Driven Human
- arxiv url: http://arxiv.org/abs/2508.20210v1
- Date: Wed, 27 Aug 2025 18:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.696599
- Title: InfinityHuman: Towards Long-Term Audio-Driven Human
- Title(参考訳): InfinityHuman: 長期的なオーディオ駆動人間を目指して
- Authors: Xiaodi Li, Pan Xie, Yi Ren, Qijun Gan, Chen Zhang, Fangyuan Kong, Xiang Yin, Bingyue Peng, Zehuan Yuan,
- Abstract要約: 既存の方法は、重なり合うモーションフレームを使ってビデオを拡張するが、エラーの蓄積に悩まされ、アイデンティティのドリフト、色の変化、シーンの不安定性が生じる。
InfinityHumanは、まず音声同期表現を生成し、その後徐々に高精細長ビデオへと洗練する粗大なフレームワークである。
EMTDとHDTFデータセットの実験により、InfinityHumanはビデオの品質、アイデンティティの保存、手の正確性、リップシンクにおける最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 37.55371306203722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven human animation has attracted wide attention thanks to its practical applications. However, critical challenges remain in generating high-resolution, long-duration videos with consistent appearance and natural hand motions. Existing methods extend videos using overlapping motion frames but suffer from error accumulation, leading to identity drift, color shifts, and scene instability. Additionally, hand movements are poorly modeled, resulting in noticeable distortions and misalignment with the audio. In this work, we propose InfinityHuman, a coarse-to-fine framework that first generates audio-synchronized representations, then progressively refines them into high-resolution, long-duration videos using a pose-guided refiner. Since pose sequences are decoupled from appearance and resist temporal degradation, our pose-guided refiner employs stable poses and the initial frame as a visual anchor to reduce drift and improve lip synchronization. Moreover, to enhance semantic accuracy and gesture realism, we introduce a hand-specific reward mechanism trained with high-quality hand motion data. Experiments on the EMTD and HDTF datasets show that InfinityHuman achieves state-of-the-art performance in video quality, identity preservation, hand accuracy, and lip-sync. Ablation studies further confirm the effectiveness of each module. Code will be made public.
- Abstract(参考訳): オーディオ駆動型人間アニメーションは、その実用的応用により広く注目を集めている。
しかし、一貫した外観と自然な手の動きを持つ高精細で長調なビデオを生成する上で、重要な課題が残っている。
既存の方法は、重なり合うモーションフレームを使ってビデオを拡張するが、エラーの蓄積に悩まされ、アイデンティティのドリフト、色の変化、シーンの不安定性が生じる。
さらに、手の動きはモデル化が不十分で、歪みやオーディオの誤認識が顕著になる。
本研究では,まず音声同期表現を生成する粗大なフレームワークであるInfinityHumanを提案する。
ポーズシーケンスは外観から切り離され、時間的劣化に抵抗するため、ポーズ誘導精製機は安定なポーズと初期フレームを視覚的アンカーとして使用し、ドリフトを低減し、唇の同期を改善する。
さらに、意味的精度とジェスチャーリアリズムを高めるために、高品質の手の動きデータを用いて訓練された手固有報酬機構を導入する。
EMTDとHDTFデータセットの実験により、InfinityHumanはビデオの品質、アイデンティティの保存、手の正確性、リップシンクにおける最先端のパフォーマンスを達成した。
アブレーション研究は各モジュールの有効性をさらに確認する。
コードは公開されます。
関連論文リスト
- InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。