論文の概要: JoyAvatar: Unlocking Highly Expressive Avatars via Harmonized Text-Audio Conditioning
- arxiv url: http://arxiv.org/abs/2602.00702v1
- Date: Sat, 31 Jan 2026 13:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.345113
- Title: JoyAvatar: Unlocking Highly Expressive Avatars via Harmonized Text-Audio Conditioning
- Title(参考訳): JoyAvatar: 調和テキストオーディオコンディショニングによる高表現性アバターのアンロック
- Authors: Ruikui Wang, Jinheng Feng, Lang Tian, Huaishao Luo, Chaochao Li, Liangbo Zhou, Huan Zhang, Youzheng Wu, Xiaodong He,
- Abstract要約: JoyAvatarは長時間のアバタービデオを生成することができるフレームワークである。
そこで本研究では,モデルに固有のテキスト制御性を持たせるための,ツイン教師強化トレーニングアルゴリズムを提案する。
トレーニング中、マルチモーダル条件の強度を動的に調整する。
- 参考スコア(独自算出の注目度): 18.72712280434528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video avatar models have demonstrated impressive capabilities in scenarios such as talking, public speaking, and singing. However, the majority of these methods exhibit limited alignment with respect to text instructions, particularly when the prompts involve complex elements including large full-body movement, dynamic camera trajectory, background transitions, or human-object interactions. To break out this limitation, we present JoyAvatar, a framework capable of generating long duration avatar videos, featuring two key technical innovations. Firstly, we introduce a twin-teacher enhanced training algorithm that enables the model to transfer inherent text-controllability from the foundation model while simultaneously learning audio-visual synchronization. Secondly, during training, we dynamically modulate the strength of multi-modal conditions (e.g., audio and text) based on the distinct denoising timestep, aiming to mitigate conflicts between the heterogeneous conditioning signals. These two key designs serve to substantially expand the avatar model's capacity to generate natural, temporally coherent full-body motions and dynamic camera movements as well as preserve the basic avatar capabilities, such as accurate lip-sync and identity consistency. GSB evaluation results demonstrate that our JoyAvatar model outperforms the state-of-the-art models such as Omnihuman-1.5 and KlingAvatar 2.0. Moreover, our approach enables complex applications including multi-person dialogues and non-human subjects role-playing. Some video samples are provided on https://joyavatar.github.io/.
- Abstract(参考訳): 既存のビデオアバターモデルは、話す、話す、話す、歌うといったシナリオで印象的な能力を誇示している。
しかしながら、これらの手法の大部分は、特に大きなフルボディ運動、ダイナミックカメラ軌道、背景遷移、人間と物体の相互作用を含む複雑な要素を含む場合、テキスト命令に関して限定的なアライメントを示す。
この制限を明らかにするために、JoyAvatarを紹介します。これは、2つの重要な技術革新を特徴とする、長時間のアバタービデオを生成することのできるフレームワークです。
まず、基礎モデルから固有のテキスト制御能力を伝達し、同時に音声と視覚の同期を学習するツイン教師強化学習アルゴリズムを提案する。
第2に、トレーニング中、異種条件信号間の衝突を緩和することを目的として、異なる発声時間ステップに基づいてマルチモーダル条件(例えば、音声、テキスト)の強度を動的に調整する。
これらの2つの重要な設計は、アバターモデルの能力を大幅に拡張し、自然な、時間的に整合したフルボディの動きとダイナミックカメラの動きを生成し、正確なリップシンクやアイデンティティの整合性などの基本的なアバター能力を維持するのに役立つ。
GSB 評価の結果,我々のJoyAvatar モデルは Omni Human-1.5 や KlingAvatar 2.0 などの最先端モデルよりも優れていた。
さらに,本手法は,多人数対話や非人間のロールプレイングといった複雑なアプリケーションを実現する。
いくつかのビデオサンプルはhttps://joyavatar.github.io/で公開されている。
関連論文リスト
- Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation [71.38488610271247]
トーキングヘッド生成は、仮想コミュニケーションとコンテンツ生成のための静的ポートレートから、ライフスタイルのアバターを生成する。
現在のモデルは、真の対話的なコミュニケーションの感覚をまだ伝えていない。
本研究では,対話型ヘッドアバター生成のための新しいフレームワークであるAvatar Forcingを提案する。
論文 参考訳(メタデータ) (2026-01-02T11:58:48Z) - AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective [15.69417162113696]
AvatarSyncは音素表現の自己回帰フレームワークであり、単一の参照画像からリアルなトーキングヘッドアニメーションを生成する。
AvatarSyncは,視覚的忠実度,時間的整合性,計算効率において,既存のトーキングヘッドアニメーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-09-15T15:34:02Z) - Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis [48.47254451688591]
Kling-Avatarは,マルチモーダル・インストラクション・理解とポートレート・ジェネレーションを融合した新しいフレームワークである。
提案手法では,最大1080p,48fpsの鮮明で流速の長いビデオを生成することができる。
これらの結果から、Kling-Avatarは意味論的に基礎を置き、高忠実な音声合成のための新しいベンチマークとして確立された。
論文 参考訳(メタデータ) (2025-09-11T16:34:57Z) - OmniAvatar: Efficient Audio-Driven Avatar Video Generation with Adaptive Body Animation [11.71823020976487]
音声駆動フルボディビデオ生成モデルであるOmniAvatarを紹介する。
人間のアニメーションを強化し、リップシンク精度と自然な動きを改善した。
実験では、顔と半体の両方のビデオ生成で既存のモデルを上回っている。
論文 参考訳(メタデータ) (2025-06-23T17:33:03Z) - Allo-AVA: A Large-Scale Multimodal Conversational AI Dataset for Allocentric Avatar Gesture Animation [1.9797215742507548]
Allo-AVAは、テキストとオーディオ駆動のアバタージェスチャーアニメーションのための、アロセントリックな(3人目の視点)コンテキストで特別に設計されたデータセットである。
このリソースは、より自然でコンテキスト対応のアバターアニメーションモデルの開発と評価を可能にする。
論文 参考訳(メタデータ) (2024-10-21T20:50:51Z) - TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model [100.35665852159785]
本研究では,SpeaKing Avatar Reenactment (TALK-Act) フレームワークのためのMotion-Enhanced Textural-Aware ModeLingを提案する。
我々のキーとなる考え方は、拡散モデルにおける明示的な動き誘導によるテクスチャ認知を高めることである。
本モデルは,30秒の個人データのみを用いて,高忠実度2次元アバター再現を実現する。
論文 参考訳(メタデータ) (2024-10-14T16:38:10Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with
Image Diffusion Model [57.855362366674264]
そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。
提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。
論文 参考訳(メタデータ) (2023-08-15T13:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。