論文の概要: Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis
- arxiv url: http://arxiv.org/abs/2509.09595v1
- Date: Thu, 11 Sep 2025 16:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.472457
- Title: Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis
- Title(参考訳): Kling-Avatar:Cascaded Long-Duration Avatar Animation Synthesisのための接地型マルチモーダルインストラクション
- Authors: Yikang Ding, Jiwen Liu, Wenyuan Zhang, Zekun Wang, Wentao Hu, Liyuan Cui, Mingming Lao, Yingchao Shao, Hui Liu, Xiaohan Li, Ming Chen, Xiaoqiang Liu, Yu-Shen Liu, Pengfei Wan,
- Abstract要約: Kling-Avatarは,マルチモーダル・インストラクション・理解とポートレート・ジェネレーションを融合した新しいフレームワークである。
提案手法では,最大1080p,48fpsの鮮明で流速の長いビデオを生成することができる。
これらの結果から、Kling-Avatarは意味論的に基礎を置き、高忠実な音声合成のための新しいベンチマークとして確立された。
- 参考スコア(独自算出の注目度): 48.47254451688591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in audio-driven avatar video generation have significantly enhanced audio-visual realism. However, existing methods treat instruction conditioning merely as low-level tracking driven by acoustic or visual cues, without modeling the communicative purpose conveyed by the instructions. This limitation compromises their narrative coherence and character expressiveness. To bridge this gap, we introduce Kling-Avatar, a novel cascaded framework that unifies multimodal instruction understanding with photorealistic portrait generation. Our approach adopts a two-stage pipeline. In the first stage, we design a multimodal large language model (MLLM) director that produces a blueprint video conditioned on diverse instruction signals, thereby governing high-level semantics such as character motion and emotions. In the second stage, guided by blueprint keyframes, we generate multiple sub-clips in parallel using a first-last frame strategy. This global-to-local framework preserves fine-grained details while faithfully encoding the high-level intent behind multimodal instructions. Our parallel architecture also enables fast and stable generation of long-duration videos, making it suitable for real-world applications such as digital human livestreaming and vlogging. To comprehensively evaluate our method, we construct a benchmark of 375 curated samples covering diverse instructions and challenging scenarios. Extensive experiments demonstrate that Kling-Avatar is capable of generating vivid, fluent, long-duration videos at up to 1080p and 48 fps, achieving superior performance in lip synchronization accuracy, emotion and dynamic expressiveness, instruction controllability, identity preservation, and cross-domain generalization. These results establish Kling-Avatar as a new benchmark for semantically grounded, high-fidelity audio-driven avatar synthesis.
- Abstract(参考訳): オーディオ駆動型アバタービデオ生成の最近の進歩は、オーディオ視覚リアリズムを著しく向上させた。
しかし、既存の手法では、命令が伝達するコミュニケーション目的をモデル化することなく、音響的または視覚的手がかりによって駆動される低レベルのトラッキングとしてのみ、命令条件付けを扱う。
この制限は彼らの物語の一貫性と性格表現性を損なう。
このギャップを埋めるために、光リアルなポートレート生成とマルチモーダルな命令理解を統一する新しいカスケードフレームワークであるKling-Avatarを導入する。
私たちのアプローチは2段階のパイプラインを採用しています。
第1段階では,多モード大言語モデル (MLLM) を設計し,多様な指示信号に基づくブループリント映像を作成し,文字の動きや感情などの高レベルなセマンティクスを管理する。
第2段階では、ブループリントキーフレームによってガイドされ、第1ラストフレーム戦略を用いて複数のサブクリップを並列に生成する。
このグローバル・ツー・ローカル・フレームワークは、マルチモーダル命令の背後にある高レベルな意図を忠実に符号化しながら、きめ細かい詳細を保存している。
我々の並列アーキテクチャは、高速かつ安定した長周期ビデオの生成を可能にし、デジタル人間のライブストリーミングやvloggingのような現実世界のアプリケーションに適しています。
提案手法を網羅的に評価するために,多様な命令と難解なシナリオを網羅した375個のキュレートされたサンプルのベンチマークを構築した。
大規模な実験により、Kling-Avatarは最大1080pと48fpsの鮮明で流動的な長周期ビデオを生成することができ、唇の同期精度、感情と動的表現性、命令制御性、アイデンティティ保存、ドメイン間の一般化において優れたパフォーマンスを達成することが示されている。
これらの結果から、Kling-Avatarは意味論的に基礎を置き、高忠実なオーディオ駆動アバター合成のための新しいベンチマークとして確立された。
関連論文リスト
- OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation [29.41106195298283]
既存のビデオアバターモデルは、流動的な人間のアニメーションを作り出すことができるが、キャラクターの真の本質を捉えるために、単なる物理的類似性を超えて動くのに苦労している。
textbfweは、物理的に妥当なだけでなく、意味的に一貫性があり表現力のあるキャラクターアニメーションを生成するために設計されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:15:26Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。
VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文 参考訳(メタデータ) (2025-06-25T16:40:17Z) - Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。
提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文 参考訳(メタデータ) (2024-12-01T08:54:30Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。