論文の概要: OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation
- arxiv url: http://arxiv.org/abs/2508.19209v1
- Date: Tue, 26 Aug 2025 17:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.931495
- Title: OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation
- Title(参考訳): OmniHuman-1.5:認知シミュレーションによるアバターのアクティブマインドの注入
- Authors: Jianwen Jiang, Weihong Zeng, Zerong Zheng, Jiaqi Yang, Chao Liang, Wang Liao, Han Liang, Yuan Zhang, Mingyuan Gao,
- Abstract要約: 既存のビデオアバターモデルは、流動的な人間のアニメーションを作り出すことができるが、キャラクターの真の本質を捉えるために、単なる物理的類似性を超えて動くのに苦労している。
textbfweは、物理的に妥当なだけでなく、意味的に一貫性があり表現力のあるキャラクターアニメーションを生成するために設計されたフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.41106195298283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video avatar models can produce fluid human animations, yet they struggle to move beyond mere physical likeness to capture a character's authentic essence. Their motions typically synchronize with low-level cues like audio rhythm, lacking a deeper semantic understanding of emotion, intent, or context. To bridge this gap, \textbf{we propose a framework designed to generate character animations that are not only physically plausible but also semantically coherent and expressive.} Our model, \textbf{OmniHuman-1.5}, is built upon two key technical contributions. First, we leverage Multimodal Large Language Models to synthesize a structured textual representation of conditions that provides high-level semantic guidance. This guidance steers our motion generator beyond simplistic rhythmic synchronization, enabling the production of actions that are contextually and emotionally resonant. Second, to ensure the effective fusion of these multimodal inputs and mitigate inter-modality conflicts, we introduce a specialized Multimodal DiT architecture with a novel Pseudo Last Frame design. The synergy of these components allows our model to accurately interpret the joint semantics of audio, images, and text, thereby generating motions that are deeply coherent with the character, scene, and linguistic content. Extensive experiments demonstrate that our model achieves leading performance across a comprehensive set of metrics, including lip-sync accuracy, video quality, motion naturalness and semantic consistency with textual prompts. Furthermore, our approach shows remarkable extensibility to complex scenarios, such as those involving multi-person and non-human subjects. Homepage: \href{https://omnihuman-lab.github.io/v1_5/}
- Abstract(参考訳): 既存のビデオアバターモデルは、流動的な人間のアニメーションを作り出すことができるが、キャラクターの真の本質を捉えるために、単なる物理的類似性を超えて動くのに苦労している。
彼らの動きは、通常、音声リズムのような低レベルの手がかりと同期し、感情、意図、文脈の深い意味的な理解が欠如している。
このギャップを埋めるために、 \textbf{we は、物理的に妥当なだけでなく、意味的に一貫性があり表現力のあるキャラクターアニメーションを生成するように設計されたフレームワークを提案する。
当社のモデルは,2つの重要な技術的コントリビューションに基づいて構築されています。
まず,マルチモーダル大言語モデルを用いて,高レベルな意味指導を提供する条件の構造化されたテキスト表現を合成する。
このガイダンスは、単純なリズミカル同期以上の動作ジェネレータを操り、文脈的に、感情的に共鳴するアクションを生成できるようにします。
第二に、これらのマルチモーダル入力を効果的に融合させ、モダリティ間の衝突を緩和するために、新しい擬似ラストフレーム設計のマルチモーダルDiTアーキテクチャを導入する。
これらのコンポーネントの相乗効果により、我々のモデルは、音声、画像、テキストのジョイントセマンティクスを正確に解釈し、キャラクタ、シーン、言語内容と深く結びついた動作を生成することができる。
大規模な実験により,本モデルは,リップシンク精度,映像品質,動きの自然さ,テキストプロンプトとのセマンティック一貫性など,総合的な指標の集合において,先行的な性能を達成できることが実証された。
さらに,本手法は,多人数者や非人間など,複雑なシナリオに対する顕著な拡張性を示す。
ホームページ: \href{https://omni Human-lab.github.io/v1_5/}
関連論文リスト
- DeepGesture: A conversational gesture synthesis system based on emotions and semantics [0.0]
DeepGestureは拡散に基づくジェスチャー合成フレームワークである。
マルチモーダル信号に条件付けされた表現的共同音声ジェスチャーを生成する。
我々は,DeepGesture が人間らしく,文脈的適切性も向上したジェスチャーを生成することを示す。
論文 参考訳(メタデータ) (2025-07-03T20:04:04Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。