論文の概要: Kling-MotionControl Technical Report
- arxiv url: http://arxiv.org/abs/2603.03160v1
- Date: Tue, 03 Mar 2026 17:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.885659
- Title: Kling-MotionControl Technical Report
- Title(参考訳): Kling-MotionControlテクニカルレポート
- Authors: Kling Team, Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Kang He, Xu He, Jingyun Hua, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Fan Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Tiancheng Wen, Zhiyong Wu, Haoxian Zhang, Runze Zhao, Yuanxing Zhang, Yan Zhou,
- Abstract要約: キャラクタアニメーションは、駆動ビデオから参照画像へのモーションダイナミクスの転送によって、ライフライクなビデオを生成することを目的としている。
生成モデルにおける最近の進歩は、高忠実度キャラクタアニメーションの道を開いた。
Kling-MotionControlは、堅牢で正確で表現力に富んだキャラクターアニメーションを特化して設計された、統合されたDiTベースのフレームワークである。
- 参考スコア(独自算出の注目度): 46.75274343533976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Character animation aims to generate lifelike videos by transferring motion dynamics from a driving video to a reference image. Recent strides in generative models have paved the way for high-fidelity character animation. In this work, we present Kling-MotionControl, a unified DiT-based framework engineered specifically for robust, precise, and expressive holistic character animation. Leveraging a divide-and-conquer strategy within a cohesive system, the model orchestrates heterogeneous motion representations tailored to the distinct characteristics of body, face, and hands, effectively reconciling large-scale structural stability with fine-grained articulatory expressiveness. To ensure robust cross-identity generalization, we incorporate adaptive identity-agnostic learning, facilitating natural motion retargeting for diverse characters ranging from realistic humans to stylized cartoons. Simultaneously, we guarantee faithful appearance preservation through meticulous identity injection and fusion designs, further supported by a subject library mechanism that leverages comprehensive reference contexts. To ensure practical utility, we implement an advanced acceleration framework utilizing multi-stage distillation, boosting inference speed by over 10x. Kling-MotionControl distinguishes itself through intelligent semantic motion understanding and precise text responsiveness, allowing for flexible control beyond visual inputs. Human preference evaluations demonstrate that Kling-MotionControl delivers superior performance compared to leading commercial and open-source solutions, achieving exceptional fidelity in holistic motion control, open domain generalization, and visual quality and coherence. These results establish Kling-MotionControl as a robust solution for high-quality, controllable, and lifelike character animation.
- Abstract(参考訳): キャラクタアニメーションは、駆動ビデオから参照画像へのモーションダイナミクスの転送によって、ライフライクなビデオを生成することを目的としている。
生成モデルにおける最近の進歩は、高忠実度キャラクタアニメーションの道を開いた。
そこで本研究では,頑健で正確で表現力に富んだキャラクターアニメーションを特化して開発した,DiTベースの統合フレームワークであるKling-MotionControlについて紹介する。
凝集系内での分割・対数戦略を利用して、モデルは、体、顔、手の異なる特性に合わせた異種運動表現を編成し、きめ細かい調音表現で大規模構造安定性を効果的に調整する。
本研究では,現実的な人間からスタイル化された漫画に至るまで,多種多様なキャラクターの自然な動きを目標とする適応型アイデンティティ非依存学習を取り入れた。
同時に、包括的参照コンテキストを活用する主題ライブラリ機構により、厳密なアイデンティティ注入と融合設計により、忠実な外観保存が保証される。
実用性を確保するため,多段蒸留を利用した高度加速フレームワークを実装し,推論速度を10倍に向上させた。
Kling-MotionControlは、インテリジェントなセマンティックモーション理解と正確なテキスト応答性を通じて自分自身を区別し、視覚的な入力を超えた柔軟な制御を可能にする。
人間の嗜好評価では、Kling-MotionControlは、主要な商用およびオープンソースソリューションと比較して優れた性能を示し、全体的モーションコントロール、オープンドメインの一般化、視覚的品質とコヒーレンスにおいて、例外的な忠実性を実現している。
これらの結果から,Kling-MotionControlは高品質でコントロール可能な,ライフスタイルのキャラクターアニメーションの堅牢なソリューションとして確立された。
関連論文リスト
- IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。
本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。
本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文 参考訳(メタデータ) (2026-02-07T11:17:20Z) - SteadyDancer: Harmonized and Coherent Human Image Animation with First-Frame Preservation [50.792027578906804]
本稿では,高調波とコヒーレントなアニメーションを実現するR2V(Image-to-Video)パラダイムベースのフレームワークであるSteadyDancerを紹介する。
実験により,SteadyDancerは外観の忠実さとモーションコントロールの両方において最先端の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-24T17:15:55Z) - OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation [52.579531290307926]
本稿では,全身動作生成のための汎用フレームワークであるOmniMotion-Xを紹介する。
OmniMotion-Xは、テキスト・トゥ・モーション、音楽・トゥ・ダンス、音声・トゥ・ジェスチャなど、多様なマルチモーダルタスクを効率的にサポートする。
高品質なマルチモーダルトレーニングを実現するため,これまでで最大の統合マルチモーダルモーションデータセットであるOmniMoCap-Xを構築した。
論文 参考訳(メタデータ) (2025-10-22T17:25:33Z) - LaMoGen: Laban Movement-Guided Diffusion for Text-to-Motion Generation [28.73306164224967]
本研究は,テキスト誘導運動生成モデルにラガンエフォートと形状成分の定量化手法をシームレスに統合することにより,人間の動作生成の解釈および表現的制御を実現することを目的とする。
提案手法は,ターゲットラバンタグによる動作特性の操作により,動作の同一性を保ちながら,多様な表現的動作特性が得られる。
論文 参考訳(メタデータ) (2025-09-29T08:48:49Z) - MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。
我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。
また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文 参考訳(メタデータ) (2025-09-28T04:20:56Z) - DreamActor-M1: Holistic, Expressive and Robust Human Image Animation with Hybrid Guidance [9.898947423344884]
本稿では,DreamActor-M1 を用いた拡散トランスフォーマ (DiT) ベースのフレームワークを提案する。
動作誘導のために、暗黙の表情、3次元頭部球体、および3次元体骨格を統合したハイブリッド制御信号は、表情と身体運動の堅牢な制御を実現する。
実験により,本手法は,肖像画,上半身,全体生成の表現的結果を提示し,最先端の成果よりも優れることが示された。
論文 参考訳(メタデータ) (2025-04-02T13:30:32Z) - Towards Synthesized and Editable Motion In-Betweening Through Part-Wise Phase Representation [29.62788252114547]
スタイル付きモーションはコンピュータのアニメーションやゲームには不可欠だ。
身体部分レベルでの動作スタイルをモデル化する新しいフレームワークを提案する。
我々のアプローチはよりニュアンスで表現力のあるアニメーションを可能にする。
論文 参考訳(メタデータ) (2025-03-11T08:44:27Z) - MotionCharacter: Identity-Preserving and Motion Controllable Human Video Generation [7.474418338825595]
MotionCharacterは、効率的で高忠実なヒューマンビデオ生成フレームワークである。
フレキシブルな属性修正を可能とし,IDの完全性を維持するためのID保存モジュールを提案する。
また,ID一貫性と領域認識損失機構を導入し,アイデンティティの整合性と詳細な忠実度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-11-27T12:15:52Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - AMP: Adversarial Motion Priors for Stylized Physics-Based Character
Control [145.61135774698002]
我々は,与えられたシナリオで追跡するキャラクタの動作を選択するための完全自動化手法を提案する。
キャラクタが実行するべきハイレベルなタスク目標は、比較的単純な報酬関数によって指定できる。
キャラクタの動作の低レベルスタイルは、非構造化モーションクリップのデータセットによって指定できる。
本システムでは,最先端のトラッキング技術に匹敵する高品質な動作を生成する。
論文 参考訳(メタデータ) (2021-04-05T22:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。