論文の概要: MotionCharacter: Identity-Preserving and Motion Controllable Human Video Generation
- arxiv url: http://arxiv.org/abs/2411.18281v2
- Date: Sat, 30 Nov 2024 07:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 13:35:53.733074
- Title: MotionCharacter: Identity-Preserving and Motion Controllable Human Video Generation
- Title(参考訳): MotionCharacter: アイデンティティ保存とモーションコントロール可能なヒューマンビデオ生成
- Authors: Haopeng Fang, Di Qiu, Binjie Mao, Pengfei Yan, He Tang,
- Abstract要約: MotionCharacterは、効率的で高忠実なヒューマンビデオ生成フレームワークである。
フレキシブルな属性修正を可能とし,IDの完全性を維持するためのID保存モジュールを提案する。
また,ID一貫性と領域認識損失機構を導入し,アイデンティティの整合性と詳細な忠実度を大幅に向上させた。
- 参考スコア(独自算出の注目度): 7.474418338825595
- License:
- Abstract: Recent advancements in personalized Text-to-Video (T2V) generation highlight the importance of integrating character-specific identities and actions. However, previous T2V models struggle with identity consistency and controllable motion dynamics, mainly due to limited fine-grained facial and action-based textual prompts, and datasets that overlook key human attributes and actions. To address these challenges, we propose MotionCharacter, an efficient and high-fidelity human video generation framework designed for identity preservation and fine-grained motion control. We introduce an ID-preserving module to maintain identity fidelity while allowing flexible attribute modifications, and further integrate ID-consistency and region-aware loss mechanisms, significantly enhancing identity consistency and detail fidelity. Additionally, our approach incorporates a motion control module that prioritizes action-related text while maintaining subject consistency, along with a dataset, Human-Motion, which utilizes large language models to generate detailed motion descriptions. For simplify user control during inference, we parameterize motion intensity through a single coefficient, allowing for easy adjustments. Extensive experiments highlight the effectiveness of MotionCharacter, demonstrating significant improvements in ID-preserving, high-quality video generation.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・ビデオ(T2V)生成の最近の進歩は、文字固有のアイデンティティとアクションを統合することの重要性を強調している。
しかし、以前のT2Vモデルは、主にきめ細かい顔とアクションベースのテキストプロンプトと、重要な人間の属性や行動を見渡すデータセットのために、アイデンティティの整合性と制御可能なモーションダイナミクスに苦しむ。
これらの課題に対処するために,個人認証と微粒化動作制御のために設計された,効率的かつ高忠実なヒューマンビデオ生成フレームワークであるMotionCharacterを提案する。
フレキシブルな属性修正を可能にしつつID保存モジュールを導入し、さらにID一貫性と領域認識損失機構を統合し、アイデンティティの整合性と詳細な忠実性を大幅に向上させる。
さらに,本手法では,対象の一貫性を維持しながら動作関連テキストを優先する動作制御モジュールと,大規模言語モデルを用いて詳細な動作記述を生成するHuman-Motionを組み込んだ。
推論中のユーザ制御を簡略化するために、単一の係数で運動強度をパラメータ化し、簡単に調整できる。
大規模な実験では、MotionCharacterの有効性が強調され、ID保存、高品質のビデオ生成の大幅な改善が示されている。
関連論文リスト
- PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
我々は、T2Vモデルにより合成されたビデオを直接監視する、textbfPersonalVideoと呼ばれる新しいフレームワークを提案する。
本手法は,従来のT2Vモデルに固有の映像生成特性を保ちながら,高いアイデンティティ忠実度を実現する上での優位性であり,従来手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - MIMAFace: Face Animation via Motion-Identity Modulated Appearance Feature Learning [30.61146302275139]
動作レベルと同一性レベルの両方でCLIP特徴を変調する動き入出力学習モジュール(MIA)を導入する。
また、クリップ間の時間関係をモデル化するICA(Inter-Clip Affinity Learning Module)を設計する。
提案手法は, 表情と視線を正確に制御し, 忠実なアイデンティティを保存し, クリック内時間的整合性を維持するアニメーション映像を生成する。
論文 参考訳(メタデータ) (2024-09-23T16:33:53Z) - Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。
特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。
コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文 参考訳(メタデータ) (2024-08-18T07:48:49Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - An Identity-Preserved Framework for Human Motion Transfer [3.6286856791379463]
HMT(Human Motion Transfer)は、被写体の動きを模倣することにより、被写体のためのビデオクリップを生成することを目的とする。
従来の手法は高品質なビデオでは良い結果を得たが、ソースとターゲットの動きから個々の動き情報を見失った。
我々は、textitIDPresと呼ばれる新しいID保存型HMTネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-14T10:27:19Z) - AMP: Adversarial Motion Priors for Stylized Physics-Based Character
Control [145.61135774698002]
我々は,与えられたシナリオで追跡するキャラクタの動作を選択するための完全自動化手法を提案する。
キャラクタが実行するべきハイレベルなタスク目標は、比較的単純な報酬関数によって指定できる。
キャラクタの動作の低レベルスタイルは、非構造化モーションクリップのデータセットによって指定できる。
本システムでは,最先端のトラッキング技術に匹敵する高品質な動作を生成する。
論文 参考訳(メタデータ) (2021-04-05T22:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。