論文の概要: OmniAvatar: Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation
- arxiv url: http://arxiv.org/abs/2506.18866v1
- Date: Mon, 23 Jun 2025 17:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.103852
- Title: OmniAvatar: Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation
- Title(参考訳): OmniAvatar: 適応体アニメーションによる高能率オーディオ駆動型アバター映像生成
- Authors: Qijun Gan, Ruizi Yang, Jianke Zhu, Shaofei Xue, Steven Hoi,
- Abstract要約: 音声駆動フルボディビデオ生成モデルであるOmniAvatarを紹介する。
人間のアニメーションを強化し、リップシンク精度と自然な動きを改善した。
実験では、顔と半体の両方のビデオ生成で既存のモデルを上回っている。
- 参考スコア(独自算出の注目度): 11.71823020976487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Significant progress has been made in audio-driven human animation, while most existing methods focus mainly on facial movements, limiting their ability to create full-body animations with natural synchronization and fluidity. They also struggle with precise prompt control for fine-grained generation. To tackle these challenges, we introduce OmniAvatar, an innovative audio-driven full-body video generation model that enhances human animation with improved lip-sync accuracy and natural movements. OmniAvatar introduces a pixel-wise multi-hierarchical audio embedding strategy to better capture audio features in the latent space, enhancing lip-syncing across diverse scenes. To preserve the capability for prompt-driven control of foundation models while effectively incorporating audio features, we employ a LoRA-based training approach. Extensive experiments show that OmniAvatar surpasses existing models in both facial and semi-body video generation, offering precise text-based control for creating videos in various domains, such as podcasts, human interactions, dynamic scenes, and singing. Our project page is https://omni-avatar.github.io/.
- Abstract(参考訳): 音声駆動の人間のアニメーションでは顕著な進歩があったが、既存のほとんどの方法は顔の動きに重点を置いており、自然な同期と流動性を持ったフルボディアニメーションを作成する能力は制限されている。
彼らはまた、きめ細かい生成のための正確な迅速な制御に苦慮している。
これらの課題に対処するために,OmniAvatarを紹介した。OmniAvatarは,リップシンク精度と自然な動きを向上し,人間のアニメーションを向上する,革新的なオーディオ駆動フルボディビデオ生成モデルである。
OmniAvatarは、ピクセル単位で多階層的なオーディオ埋め込み戦略を導入し、潜在空間におけるオーディオ機能をよりよくキャプチャし、さまざまなシーンでリップシンクを改善する。
音声特徴を効果的に取り入れつつ,基礎モデルの迅速な制御能力を維持するために,LoRAベースのトレーニングアプローチを採用する。
大規模な実験によると、OmniAvatarは顔と半体の両方のビデオ生成における既存のモデルを超えており、ポッドキャスト、ヒューマンインタラクション、ダイナミックシーン、歌など、さまざまなドメインでビデオを作成するための正確なテキストベースの制御を提供する。
私たちのプロジェクトページはhttps://omni-avatar.github.io/です。
関連論文リスト
- AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers [83.90298286498306]
既存の方法は、主に顔の動きを駆動することに焦点を当てており、非コヒーレントな頭と体の動きに繋がる。
本稿では,Diffusion-Transformers(DiT)パラダイムを取り入れた一般的な音声駆動型ヒューマンビデオ生成フレームワークであるAudCastを提案する。
我々のフレームワークは、時間的コヒーレンスときめ細かい顔と手細かな細部を持つ高忠実なオーディオ駆動型人間ビデオを生成する。
論文 参考訳(メタデータ) (2025-03-25T16:38:23Z) - Versatile Multimodal Controls for Expressive Talking Human Animation [26.61771541877306]
VersaAnimatorは、任意のポートレート画像から表現力のある人間の動画を合成する多目的フレームワークである。
本稿では,3次元動作トークンを2次元ポーズシーケンスにスムーズにマッピングするトークン2poseトランスレータを提案する。
論文 参考訳(メタデータ) (2025-03-10T08:38:25Z) - OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models [25.45077656291886]
動作関連条件をトレーニングフェーズに混合することにより,データをスケールアップする拡散トランスフォーマーベースのフレームワークを提案する。
これらの設計により、OmniHumanはデータ駆動モーション生成を完全に活用し、最終的に非常にリアルな人間のビデオ生成を実現することができる。
既存のエンドツーエンドのオーディオ駆動方式と比較して、OmniHumanはよりリアルなビデオを生成するだけでなく、入力の柔軟性も向上している。
論文 参考訳(メタデータ) (2025-02-03T05:17:32Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos [87.32349247938136]
既存のアプローチでは、トレーニング中にビデオとオーディオの完全な対応を暗黙的に仮定する。
環境に配慮した新しいオーディオ生成モデルAV-LDMを提案する。
我々のアプローチは、観察された視覚コンテンツに忠実にビデオ・オーディオ生成を集中させる最初の方法である。
論文 参考訳(メタデータ) (2024-06-13T16:10:19Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。