Fugu-MT 論文翻訳(概要): MoCo: Motion-Consistent Human Video Generation via Structure-Appearance Decoupling

論文の概要: MoCo: Motion-Consistent Human Video Generation via Structure-Appearance Decoupling

arxiv url: http://arxiv.org/abs/2508.17404v1
Date: Sun, 24 Aug 2025 15:20:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-26 18:43:45.510577
Title: MoCo: Motion-Consistent Human Video Generation via Structure-Appearance Decoupling
Title（参考訳）: MoCo: 構造表示デカップリングによるモーションコンセントヒューマンビデオ生成
Authors: Haoyu Wang, Hao Tang, Donglin Di, Zhilu Zhang, Wangmeng Zuo, Feng Gao, Siwei Ma, Shiliang Zhang,
Abstract要約: MoCoは、テキストプロンプトから一貫した動きで人間のビデオを生成する新しい方法である。本手法では,テキストプロンプトから人間の動作シーケンスを生成するために,効率的な3次元構造生成器を用いる。複雑で多様な動きを特徴とする大規模人体ビデオデータセットを構築した。
参考スコア（独自算出の注目度）: 107.8379802891245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating human videos with consistent motion from text prompts remains a significant challenge, particularly for whole-body or long-range motion. Existing video generation models prioritize appearance fidelity, resulting in unrealistic or physically implausible human movements with poor structural coherence. Additionally, most existing human video datasets primarily focus on facial or upper-body motions, or consist of vertically oriented dance videos, limiting the scope of corresponding generation methods to simple movements. To overcome these challenges, we propose MoCo, which decouples the process of human video generation into two components: structure generation and appearance generation. Specifically, our method first employs an efficient 3D structure generator to produce a human motion sequence from a text prompt. The remaining video appearance is then synthesized under the guidance of the generated structural sequence. To improve fine-grained control over sparse human structures, we introduce Human-Aware Dynamic Control modules and integrate dense tracking constraints during training. Furthermore, recognizing the limitations of existing datasets, we construct a large-scale whole-body human video dataset featuring complex and diverse motions. Extensive experiments demonstrate that MoCo outperforms existing approaches in generating realistic and structurally coherent human videos.
Abstract（参考訳）: テキストのプロンプトから一貫した動きで人間のビデオを生成することは、特に全身や長距離の動きにおいて重要な課題である。既存のビデオ生成モデルは外観の忠実さを優先し、構造的コヒーレンスを欠いた非現実的または物理的に不確実な人間の動きをもたらす。さらに、既存の人間のビデオデータセットのほとんどは、主に顔や上半身の動きに焦点を当てているか、垂直方向のダンスビデオで構成されており、対応する生成方法の範囲を単純な動きに制限している。これらの課題を克服するために,人間の映像生成過程を構造生成と外観生成という2つの構成要素に分解するMoCoを提案する。具体的には,テキストプロンプトから人間の動作シーケンスを生成するために,まず効率的な3D構造生成装置を用いる。残りの映像の外観は、生成された構造シーケンスのガイダンスに基づいて合成される。スパース構造に対するきめ細かい制御を改善するため,Human-Aware Dynamic Controlモジュールを導入し,トレーニング中に密集したトラッキング制約を統合する。さらに,既存のデータセットの限界を認識し,複雑で多様な動きを特徴とする大規模人体ビデオデータセットを構築した。大規模な実験では、MoCoは現実的で構造的に整合した人間のビデオを生成する既存のアプローチよりも優れています。

関連論文リスト

HyperMotion: DiT-Based Pose-Guided Human Image Animation of Complex Motions [12.46263584777151]
我々はtextbfOpen-HyperMotionX データセットと textbfHyperMotionX Bench を導入する。また、簡易だが強力なDiTベースのビデオ生成ベースラインを提案し、空間的低周波化 RoPE を設計する。本手法は,高ダイナミックな人間の動作シーケンスにおける構造安定性と外観の整合性を大幅に向上させる。
論文参考訳（メタデータ） (2025-05-29T01:30:46Z)
LatentMove: Towards Complex Human Movement Video Generation [35.83863053692456]
我々は、高ダイナミックな人間のアニメーションに特化して設計されたDiTベースのフレームワークであるLatentMoveを提示する。アーキテクチャには条件制御ブランチと学習可能なフェイス/ボディトークンが組み込まれており、フレーム間のきめ細かい詳細や一貫性を保っている。 I2Vシステムのロバスト性を評価するために設計された多種多様で挑戦的な人間の動きを特徴付けるデータセットである複合Human-Videos(CHV)を紹介する。
論文参考訳（メタデータ） (2025-05-28T07:10:49Z)
Multi-identity Human Image Animation with Structural Video Diffusion [64.20452431561436]
本稿では,リアルなマルチヒューマンビデオを生成するための新しいフレームワークであるStructure Video Diffusionを提案する。当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文参考訳（メタデータ） (2025-04-05T10:03:49Z)
Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文参考訳（メタデータ） (2024-12-17T18:58:07Z)
LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文参考訳（メタデータ） (2023-05-06T09:29:12Z)
High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文参考訳（メタデータ） (2020-12-20T16:54:38Z)
Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文参考訳（メタデータ） (2020-08-24T02:11:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。