論文の概要: InfinityHuman: Towards Long-Term Audio-Driven Human
- arxiv url: http://arxiv.org/abs/2508.20210v1
- Date: Wed, 27 Aug 2025 18:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.696599
- Title: InfinityHuman: Towards Long-Term Audio-Driven Human
- Title(参考訳): InfinityHuman: 長期的なオーディオ駆動人間を目指して
- Authors: Xiaodi Li, Pan Xie, Yi Ren, Qijun Gan, Chen Zhang, Fangyuan Kong, Xiang Yin, Bingyue Peng, Zehuan Yuan,
- Abstract要約: 既存の方法は、重なり合うモーションフレームを使ってビデオを拡張するが、エラーの蓄積に悩まされ、アイデンティティのドリフト、色の変化、シーンの不安定性が生じる。
InfinityHumanは、まず音声同期表現を生成し、その後徐々に高精細長ビデオへと洗練する粗大なフレームワークである。
EMTDとHDTFデータセットの実験により、InfinityHumanはビデオの品質、アイデンティティの保存、手の正確性、リップシンクにおける最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 37.55371306203722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven human animation has attracted wide attention thanks to its practical applications. However, critical challenges remain in generating high-resolution, long-duration videos with consistent appearance and natural hand motions. Existing methods extend videos using overlapping motion frames but suffer from error accumulation, leading to identity drift, color shifts, and scene instability. Additionally, hand movements are poorly modeled, resulting in noticeable distortions and misalignment with the audio. In this work, we propose InfinityHuman, a coarse-to-fine framework that first generates audio-synchronized representations, then progressively refines them into high-resolution, long-duration videos using a pose-guided refiner. Since pose sequences are decoupled from appearance and resist temporal degradation, our pose-guided refiner employs stable poses and the initial frame as a visual anchor to reduce drift and improve lip synchronization. Moreover, to enhance semantic accuracy and gesture realism, we introduce a hand-specific reward mechanism trained with high-quality hand motion data. Experiments on the EMTD and HDTF datasets show that InfinityHuman achieves state-of-the-art performance in video quality, identity preservation, hand accuracy, and lip-sync. Ablation studies further confirm the effectiveness of each module. Code will be made public.
- Abstract(参考訳): オーディオ駆動型人間アニメーションは、その実用的応用により広く注目を集めている。
しかし、一貫した外観と自然な手の動きを持つ高精細で長調なビデオを生成する上で、重要な課題が残っている。
既存の方法は、重なり合うモーションフレームを使ってビデオを拡張するが、エラーの蓄積に悩まされ、アイデンティティのドリフト、色の変化、シーンの不安定性が生じる。
さらに、手の動きはモデル化が不十分で、歪みやオーディオの誤認識が顕著になる。
本研究では,まず音声同期表現を生成する粗大なフレームワークであるInfinityHumanを提案する。
ポーズシーケンスは外観から切り離され、時間的劣化に抵抗するため、ポーズ誘導精製機は安定なポーズと初期フレームを視覚的アンカーとして使用し、ドリフトを低減し、唇の同期を改善する。
さらに、意味的精度とジェスチャーリアリズムを高めるために、高品質の手の動きデータを用いて訓練された手固有報酬機構を導入する。
EMTDとHDTFデータセットの実験により、InfinityHumanはビデオの品質、アイデンティティの保存、手の正確性、リップシンクにおける最先端のパフォーマンスを達成した。
アブレーション研究は各モジュールの有効性をさらに確認する。
コードは公開されます。
関連論文リスト
- IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文 参考訳(メタデータ) (2026-02-07T11:17:20Z) - TalkingPose: Efficient Face and Gesture Animation with Feedback-guided Diffusion Model [18.910745982208965]
TalkingPoseは、時間的に一貫した人間の上半身アニメーションを作成するための新しい拡散ベースのフレームワークである。
画像ベース拡散モデルに基づくフィードバック駆動機構を導入し,連続的な動きを確実にし,時間的コヒーレンスを高める。
また、人間の上半身アニメーションの新しいベンチマークとして、包括的で大規模なデータセットも導入した。
論文 参考訳(メタデータ) (2025-11-30T14:26:24Z) - VividAnimator: An End-to-End Audio and Pose-driven Half-Body Human Animation Framework [22.497991863309792]
VividAnimatorは、オーディオとスパースハンドポーズ条件によって駆動される高品質な半体アニメーションを生成するエンドツーエンドフレームワークである。
オンラインコードブックトレーニングの不安定性と高コストを克服するため、私たちは、リッチで高忠実な手テクスチャをエンコードするハンドクラリティー・コードブックを事前訓練しました。
論文 参考訳(メタデータ) (2025-10-11T16:04:56Z) - StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - Stable Video-Driven Portraits [52.008400639227034]
アニメーションは、ドライビングビデオから表現とポーズを再現することで、単一のソースイメージから写真リアルなビデオを生成することを目的としている。
拡散モデルを用いた最近の進歩は品質の向上を示しているが、弱い制御信号やアーキテクチャ上の制約によって制約されている。
本研究では, 眼, 鼻, 口などのマスク付き顔面領域を, 強力な動き制御手段として活用する新しい拡散型枠組みを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:11:08Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。