論文の概要: Toward Rich Video Human-Motion2D Generation
- arxiv url: http://arxiv.org/abs/2506.14428v1
- Date: Tue, 17 Jun 2025 11:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.446286
- Title: Toward Rich Video Human-Motion2D Generation
- Title(参考訳): リッチビデオHuman-Motion2D生成に向けて
- Authors: Ruihao Xi, Xuekuan Wang, Yongcheng Li, Shuhua Li, Zichen Wang, Yiwei Wang, Feng Wei, Cairong Zhao,
- Abstract要約: 本稿では,15万本のビデオシーケンスからなる大規模リッチビデオモーション2Dデータセット(Motion2D-Video-150K)を紹介する。
Motion2D-Video-150Kは多様な単一文字のバランスの取れた分布を特徴としている。
拡散型リッチビデオモーション2D生成モデル(RVHM2D)を提案する。
- 参考スコア(独自算出の注目度): 16.58311138197227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic and controllable human motions, particularly those involving rich multi-character interactions, remains a significant challenge due to data scarcity and the complexities of modeling inter-personal dynamics. To address these limitations, we first introduce a new large-scale rich video human motion 2D dataset (Motion2D-Video-150K) comprising 150,000 video sequences. Motion2D-Video-150K features a balanced distribution of diverse single-character and, crucially, double-character interactive actions, each paired with detailed textual descriptions. Building upon this dataset, we propose a novel diffusion-based rich video human motion2D generation (RVHM2D) model. RVHM2D incorporates an enhanced textual conditioning mechanism utilizing either dual text encoders (CLIP-L/B) or T5-XXL with both global and local features. We devise a two-stage training strategy: the model is first trained with a standard diffusion objective, and then fine-tuned using reinforcement learning with an FID-based reward to further enhance motion realism and text alignment. Extensive experiments demonstrate that RVHM2D achieves leading performance on the Motion2D-Video-150K benchmark in generating both single and interactive double-character scenarios.
- Abstract(参考訳): 現実的で制御可能な人間の動き、特にリッチなマルチキャラクタ相互作用を含む動きを生成することは、データの不足と個人間のダイナミクスをモデル化する複雑さのために、依然として大きな課題である。
これらの制約に対処するため、我々はまず15万の動画シーケンスからなる大規模でリッチなヒューマンモーション2Dデータセット(Motion2D-Video-150K)を導入する。
Motion2D-Video-150Kは、多様な単一文字のバランスの取れた分布と、重要な2文字のインタラクティブなアクションを備え、それぞれに詳細なテキスト記述が組み合わされている。
このデータセットに基づいて,新しい拡散型リッチビデオモーション2D生成(RVHM2D)モデルを提案する。
RVHM2Dは、デュアルテキストエンコーダ(CLIP-L/B)またはT5-XXLをグローバルとローカルの両方の機能で利用する拡張テキストコンディショニング機構を組み込んでいる。
モデルはまず標準拡散目標を用いて訓練され、次にFIDに基づく報酬による強化学習を用いて微調整を行い、動きリアリズムとテキストアライメントをさらに強化する。
大規模な実験により、RVHM2DはMotion2D-Video-150Kベンチマークにおいて、シングルおよびインタラクティブなダブルキャラクタシナリオの生成において、主要なパフォーマンスを達成することが示されている。
関連論文リスト
- GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation [19.2804620329011]
Generative Pretrained Multi-path Motion Model (GenM$3$)は、統合された動き表現を学習するためのフレームワークである。
大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。
GenM$3$はHumanML3Dベンチマークで0.035の最先端のFIDを実現し、最先端のメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-03-19T05:56:52Z) - AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models [5.224806515926022]
外部データを持たない任意の文字に対するフレーム間の動きを生成する新しい手法であるAnyMoLeを導入する。
本手法では,文脈理解を高めるために2段階のフレーム生成プロセスを用いる。
論文 参考訳(メタデータ) (2025-03-11T13:28:59Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models [18.125860678409804]
テキスト記述から人間の動きを生成するための新しいアプローチであるM2D2M(Multi-Motion Discrete Diffusion Models)を紹介する。
M2D2Mは、マルチモーションシーケンスを生成するという課題に順応的に対処し、一連のアクション間の動きとコヒーレンスをシームレスに遷移させる。
論文 参考訳(メタデータ) (2024-07-19T17:57:33Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。