論文の概要: KlingAvatar 2.0 Technical Report
- arxiv url: http://arxiv.org/abs/2512.13313v1
- Date: Mon, 15 Dec 2025 13:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.67537
- Title: KlingAvatar 2.0 Technical Report
- Title(参考訳): KlingAvatar 2.0テクニカルレポート
- Authors: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Yuan Gao, Kang He, Jingyun Hua, Boyuan Jiang, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Yuan Liu, Shun Lu, Yongsen Mao, Yingchao Shao, Huafeng Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Chao Wang, Xuebo Wang, Haoxian Zhang, Yuanxing Zhang, Yan Zhou,
- Abstract要約: 本モデルは,マルチモーダル・アライメントの長めの高解像度ビデオ生成における課題を効果的に解決する。
視覚的明瞭度の向上、正確な唇同期によるリアルな唇歯のレンダリング、強力なアイデンティティ保存、そしてコヒーレントなマルチモーダル・インストラクションを提供する。
- 参考スコア(独自算出の注目度): 43.949604396366425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Avatar video generation models have achieved remarkable progress in recent years. However, prior work exhibits limited efficiency in generating long-duration high-resolution videos, suffering from temporal drifting, quality degradation, and weak prompt following as video length increases. To address these challenges, we propose KlingAvatar 2.0, a spatio-temporal cascade framework that performs upscaling in both spatial resolution and temporal dimension. The framework first generates low-resolution blueprint video keyframes that capture global semantics and motion, and then refines them into high-resolution, temporally coherent sub-clips using a first-last frame strategy, while retaining smooth temporal transitions in long-form videos. To enhance cross-modal instruction fusion and alignment in extended videos, we introduce a Co-Reasoning Director composed of three modality-specific large language model (LLM) experts. These experts reason about modality priorities and infer underlying user intent, converting inputs into detailed storylines through multi-turn dialogue. A Negative Director further refines negative prompts to improve instruction alignment. Building on these components, we extend the framework to support ID-specific multi-character control. Extensive experiments demonstrate that our model effectively addresses the challenges of efficient, multimodally aligned long-form high-resolution video generation, delivering enhanced visual clarity, realistic lip-teeth rendering with accurate lip synchronization, strong identity preservation, and coherent multimodal instruction following.
- Abstract(参考訳): アバタービデオ生成モデルは近年顕著な進歩を遂げている。
しかし、先行研究は、時間的ドリフト、品質劣化、ビデオ長の増加に伴う後続の弱いプロンプトに苦しむ長周期高解像度ビデオの生成において、限られた効率を示す。
これらの課題に対処するために,空間分解能と時間次元の両方でアップスケーリングを行う時空間カスケードフレームワークであるKlingAvatar 2.0を提案する。
このフレームワークはまず、グローバルなセマンティクスと動きをキャプチャする低解像度のブループリントビデオキーフレームを生成し、その後、長いビデオのスムーズな時間遷移を維持しながら、第1のフレーム戦略を用いて高解像度で時間的に整合したサブクリップに洗練する。
拡張ビデオにおけるクロスモーダルな命令融合とアライメントを強化するために,3つのモーダル特化大言語モデル(LLM)の専門家からなる共振器ディレクタを導入する。
これらの専門家は、モダリティの優先順位を推論し、ユーザ意図を推測し、マルチターン対話を通じて入力を詳細なストーリーラインに変換する。
負のディレクタはさらに、命令アライメントを改善するために負のプロンプトを洗練する。
これらのコンポーネント上に構築され、ID固有のマルチ文字制御をサポートするためにフレームワークを拡張します。
拡張された視覚的明瞭度, 正確な唇同期によるリアルな唇歯のレンダリング, 強いアイデンティティ保存, 続くコヒーレントなマルチモーダル・インストラクションを提供する。
関連論文リスト
- STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文 参考訳(メタデータ) (2025-12-13T15:57:29Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - SkyReels-V2: Infinite-length Film Generative Model [35.00453687783287]
Infinite-length Film Generative Model である SkyReels-V2 を提案し,マルチモーダル大言語モデル(MLLM),マルチステージ事前学習,強化学習,拡散強制フレームワークを提案する。
我々は,基本映像生成のためのプログレッシブ・レゾリューション・プレトレーニングを確立し,その後4段階のポストトレーニング強化を行った。
論文 参考訳(メタデータ) (2025-04-17T16:37:27Z) - Enhancing Long Video Generation Consistency without Tuning [92.1714656167712]
単一のプロンプトまたは複数のプロンプトで生成されたビデオの一貫性とコヒーレンスを高めるための課題に対処する。
本稿では,時間周波数に基づく時間的注意再重み付けアルゴリズム(TiARA)を提案する。
複数のプロンプトによって生成されたビデオに対しては、プロンプトのアライメントがプロンプトの品質に影響を及ぼすといった重要な要因をさらに明らかにする。
提案するPromptBlendは,プロンプトを系統的に整列させるプロンプトパイプラインである。
論文 参考訳(メタデータ) (2024-12-23T03:56:27Z) - Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance [39.94595889521696]
LetsTalkは、マルチモーダルガイダンスと新しいメモリバンク機構を備えた拡散トランスフォーマーフレームワークである。
特に、LetsTalkは、拡張ビデオ生成時のエラーの蓄積とアーティファクトのサンプリングを緩和するために、ノイズレギュラー化されたメモリバンクを導入している。
我々はLetsTalkが生成品質の新たな最先端を確立し、時間的に一貫したリアルな会話ビデオを生成することを示す。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。