論文の概要: Generating Human Motion Videos using a Cascaded Text-to-Video Framework
- arxiv url: http://arxiv.org/abs/2510.03909v1
- Date: Sat, 04 Oct 2025 19:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.336448
- Title: Generating Human Motion Videos using a Cascaded Text-to-Video Framework
- Title(参考訳): Cascaded Text-to-Video Frameworkを用いた人間のモーションビデオの生成
- Authors: Hyelin Nam, Hyojun Go, Byeongjun Park, Byung-Hoon Kim, Hyungjin Chung,
- Abstract要約: CAMEOは、一般的な人間のモーションビデオ生成のためのカスケードフレームワークである。
Text-to-Motion(T2M)モデルと条件付きVDMをシームレスにブリッジする。
提案手法の有効性をMovieGenベンチマークとT2M-VDMの組み合わせに合わせて新たに導入したベンチマークで示す。
- 参考スコア(独自算出の注目度): 27.77921324288557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human video generation is becoming an increasingly important task with broad applications in graphics, entertainment, and embodied AI. Despite the rapid progress of video diffusion models (VDMs), their use for general-purpose human video generation remains underexplored, with most works constrained to image-to-video setups or narrow domains like dance videos. In this work, we propose CAMEO, a cascaded framework for general human motion video generation. It seamlessly bridges Text-to-Motion (T2M) models and conditional VDMs, mitigating suboptimal factors that may arise in this process across both training and inference through carefully designed components. Specifically, we analyze and prepare both textual prompts and visual conditions to effectively train the VDM, ensuring robust alignment between motion descriptions, conditioning signals, and the generated videos. Furthermore, we introduce a camera-aware conditioning module that connects the two stages, automatically selecting viewpoints aligned with the input text to enhance coherence and reduce manual intervention. We demonstrate the effectiveness of our approach on both the MovieGen benchmark and a newly introduced benchmark tailored to the T2M-VDM combination, while highlighting its versatility across diverse use cases.
- Abstract(参考訳): 人間のビデオ生成は、グラフィックス、エンターテイメント、エンボディAIの幅広い応用において、ますます重要なタスクになりつつある。
ビデオ拡散モデル(VDM)の急速な進歩にもかかわらず、汎用ビデオ生成への使用は未定であり、ほとんどの作品では映像から映像への設定やダンスビデオのような狭い領域に制限されている。
本研究では,一般的なモーションビデオ生成のためのカスケードフレームワークであるCAMEOを提案する。
T2M(Text-to-Motion)モデルと条件付きVDMをシームレスにブリッジし、慎重に設計されたコンポーネントを通じてトレーニングと推論の両方でこのプロセスで発生する可能性のある最適以下の要因を緩和する。
具体的には、テキストプロンプトと視覚条件の両方を分析して、VDMを効果的に訓練し、動作記述、条件付け信号、生成されたビデオ間のロバストなアライメントを確保する。
さらに,2段階を接続するカメラ対応コンディショニングモジュールを導入し,入力テキストに整合した視点を自動的に選択し,コヒーレンスを高め,手動による介入を減らす。
我々は、MovieGenベンチマークとT2M-VDMの組み合わせに合わせて新しく導入されたベンチマークの両方において、我々のアプローチの有効性を実証し、多様なユースケースにおけるその汎用性を強調した。
関連論文リスト
- Motion Control for Enhanced Complex Action Video Generation [17.98485830881648]
既存のテキスト・ツー・ビデオ(T2V)モデルは、十分に発音または複雑なアクションでビデオを生成するのに苦労することが多い。
そこで本稿では, 高精度な流体アクションで長編ビデオを生成するための新しいフレームワークであるMVideoを提案する。
MVideoは、追加の動作条件入力としてマスクシーケンスを組み込むことで、テキストプロンプトの制限を克服する。
論文 参考訳(メタデータ) (2024-11-13T04:20:45Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。