論文の概要: MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling
- arxiv url: http://arxiv.org/abs/2508.17404v2
- Date: Tue, 07 Oct 2025 15:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 15:38:21.278848
- Title: MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling
- Title(参考訳): MoSA: 構造表示デカップリングによるモーションコヒーレントなヒューマンビデオ生成
- Authors: Haoyu Wang, Hao Tang, Donglin Di, Zhilu Zhang, Wangmeng Zuo, Feng Gao, Siwei Ma, Shiliang Zhang,
- Abstract要約: 本稿では,人間の映像生成過程を2つの構成要素,すなわち構造生成と外観生成に分解するMOSAを提案する。
MoSAは、ほとんどの評価指標で既存のアプローチを大幅に上回っている。
また,既存の人的ビデオデータセットよりも複雑で多様な動きを特徴とする大規模な人的ビデオデータセットも提案する。
- 参考スコア(独自算出の注目度): 107.8379802891245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video generation models predominantly emphasize appearance fidelity while exhibiting limited ability to synthesize complex human motions, such as whole-body movements, long-range dynamics, and fine-grained human-environment interactions. This often leads to unrealistic or physically implausible movements with inadequate structural coherence. To conquer these challenges, we propose MoSA, which decouples the process of human video generation into two components, i.e., structure generation and appearance generation. MoSA first employs a 3D structure transformer to generate a human motion sequence from the text prompt. The remaining video appearance is then synthesized under the guidance of this structural sequence. We achieve fine-grained control over the sparse human structures by introducing Human-Aware Dynamic Control modules with a dense tracking constraint during training. The modeling of human-environment interactions is improved through the proposed contact constraint. Those two components work comprehensively to ensure the structural and appearance fidelity across the generated videos. This paper also contributes a large-scale human video dataset, which features more complex and diverse motions than existing human video datasets. We conduct comprehensive comparisons between MoSA and a variety of approaches, including general video generation models, human video generation models, and human animation models. Experiments demonstrate that MoSA substantially outperforms existing approaches across the majority of evaluation metrics.
- Abstract(参考訳): 既存のビデオ生成モデルは、外見の忠実さを強調しつつ、全身の動き、長距離ダイナミクス、きめ細かい人間の環境相互作用などの複雑な人間の動きを合成する能力に制限がある。
これはしばしば、構造的コヒーレンスが不十分な非現実的または物理的に不可解な運動につながる。
これらの課題を克服するために,人間の映像生成過程を2つの構成要素,すなわち構造生成と外観生成に分解するMOSAを提案する。
MoSAはまず3D構造変換器を使用し、テキストプロンプトから人間の動作シーケンスを生成する。
残りの映像は、この構造配列のガイダンスに基づいて合成される。
我々は、トレーニング中に密集したトラッキング制約を持つヒューマン・アウェア・ダイナミック・コントロール・モジュールを導入することで、スパース・ヒューマン構造に対するきめ細かい制御を実現する。
人-環境相互作用のモデル化は,提案した接触制約によって改善される。
これら2つのコンポーネントは、生成されたビデオ全体の構造的および外観的忠実性を保証するために、包括的に機能する。
また,既存の人的ビデオデータセットよりも複雑で多様な動きを特徴とする大規模な人的ビデオデータセットも提案する。
我々は、一般的なビデオ生成モデル、ヒューマンビデオ生成モデル、ヒューマンアニメーションモデルなど、MoSAと様々なアプローチの包括的な比較を行う。
実験によると、MoSAは評価指標の大部分で既存のアプローチを大幅に上回っている。
関連論文リスト
- HyperMotion: DiT-Based Pose-Guided Human Image Animation of Complex Motions [12.46263584777151]
我々はtextbfOpen-HyperMotionX データセットと textbfHyperMotionX Bench を導入する。
また、簡易だが強力なDiTベースのビデオ生成ベースラインを提案し、空間的低周波化 RoPE を設計する。
本手法は,高ダイナミックな人間の動作シーケンスにおける構造安定性と外観の整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-05-29T01:30:46Z) - LatentMove: Towards Complex Human Movement Video Generation [35.83863053692456]
我々は、高ダイナミックな人間のアニメーションに特化して設計されたDiTベースのフレームワークであるLatentMoveを提示する。
アーキテクチャには条件制御ブランチと学習可能なフェイス/ボディトークンが組み込まれており、フレーム間のきめ細かい詳細や一貫性を保っている。
I2Vシステムのロバスト性を評価するために設計された多種多様で挑戦的な人間の動きを特徴付けるデータセットである複合Human-Videos(CHV)を紹介する。
論文 参考訳(メタデータ) (2025-05-28T07:10:49Z) - Multi-identity Human Image Animation with Structural Video Diffusion [64.20452431561436]
本稿では,リアルなマルチヒューマンビデオを生成するための新しいフレームワークであるStructure Video Diffusionを提案する。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。
本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-12-17T18:58:07Z) - LEO: Generative Latent Image Animator for Human Video Synthesis [38.99490968487773]
本稿では,人間の映像合成のための新しい枠組みを提案し,合成時間的コヒーレンシーを重視した。
私たちのキーとなるアイデアは、動きを外見から本質的に分離する生成過程におけるフローマップのシーケンスとして表現することです。
フローベース画像アニメーターとラテントモーション拡散モデル(LMDM)を用いてこれを実装した。
論文 参考訳(メタデータ) (2023-05-06T09:29:12Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。