論文の概要: DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data
- arxiv url: http://arxiv.org/abs/2604.01666v1
- Date: Thu, 02 Apr 2026 06:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.473922
- Title: DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data
- Title(参考訳): DynaVid: 合成モーションデータを用いた高ダイナミックビデオ生成学習
- Authors: Wonjoon Jin, Jiyun Won, Janghyeok Han, Qi Dai, Chong Luo, Seung-Hwan Baek, Sunghyun Cho,
- Abstract要約: DynaVidは、トレーニングで合成モーションデータを活用するビデオ合成フレームワークである。
ダイナミックモーション生成とカメラモーション制御において,DynaVidはリアリズムと制御性を向上することを示す。
- 参考スコア(独自算出の注目度): 51.316274891736164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress, video diffusion models still struggle to synthesize realistic videos involving highly dynamic motions or requiring fine-grained motion controllability. A central limitation lies in the scarcity of such examples in commonly used training datasets. To address this, we introduce DynaVid, a video synthesis framework that leverages synthetic motion data in training, which is represented as optical flow and rendered using computer graphics pipelines. This approach offers two key advantages. First, synthetic motion offers diverse motion patterns and precise control signals that are difficult to obtain from real data. Second, unlike rendered videos with artificial appearances, rendered optical flow encodes only motion and is decoupled from appearance, thereby preventing models from reproducing the unnatural look of synthetic videos. Building on this idea, DynaVid adopts a two-stage generation framework: a motion generator first synthesizes motion, and then a motion-guided video generator produces video frames conditioned on that motion. This decoupled formulation enables the model to learn dynamic motion patterns from synthetic data while preserving visual realism from real-world videos. We validate our framework on two challenging scenarios, vigorous human motion generation and extreme camera motion control, where existing datasets are particularly limited. Extensive experiments demonstrate that DynaVid improves the realism and controllability in dynamic motion generation and camera motion control.
- Abstract(参考訳): 近年の進歩にもかかわらず、ビデオ拡散モデルは、非常にダイナミックな動きを含むリアルなビデオの合成や、きめ細かい動きの制御に苦慮している。
中心的な制限は、一般的に使用されるトレーニングデータセットにおけるそのような例の不足にある。
そこで我々はDynaVidを紹介した。DynaVidはトレーニングで合成動作データを活用するビデオ合成フレームワークで、光学フローとして表現され、コンピュータグラフィックスパイプラインを用いてレンダリングされる。
このアプローチには2つの大きな利点があります。
まず、合成運動は、実際のデータから得るのが難しい多様な動きパターンと正確な制御信号を提供する。
第二に、人工的な外観を持つレンダリングビデオとは異なり、レンダリングされた光学フローは動きのみを符号化し、外観から切り離され、モデルが合成ビデオの不自然な外観を再現するのを防ぐ。
モーションジェネレータは、まずモーションを合成し、次にモーション誘導ビデオジェネレータは、そのモーションに条件付けされたビデオフレームを生成する。
この分離された定式化により、実世界のビデオから視覚的リアリズムを保ちながら、合成データから動的動きパターンを学習することができる。
我々は、既存のデータセットが特に制限されている、活発な人間のモーション生成と極端なカメラモーション制御という、2つの挑戦的なシナリオで、我々のフレームワークを検証する。
広汎な実験により、DynaVidはダイナミックモーション生成とカメラモーション制御におけるリアリズムと制御性を向上することが示された。
関連論文リスト
- Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades [32.12940211414945]
両制約に対処する2段階のカスケードフレームワークを提案する。
自動回帰テキスト-スケルトンモデルでは、自然言語記述から2次元ポーズシーケンスを生成する。
ポーズ条件付きビデオ拡散モデルは、参照画像と生成されたスケルトンシーケンスからビデオを合成する。
論文 参考訳(メタデータ) (2026-03-09T07:04:29Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Motion Dreamer: Boundary Conditional Motion Reasoning for Physically Coherent Video Generation [27.690736225683825]
動作推論を視覚合成から明確に分離する2段階のフレームワークであるMotion Dreamerを紹介する。
提案手法では,部分的ユーザ定義動作の効果的な統合を可能にするスパース・ツー・デンス動作表現であるインスタンスフローを導入している。
実験により、モーションドリーマーは既存の手法よりも優れており、より優れた動きの可視性と視覚的リアリズムを実現していることが示された。
論文 参考訳(メタデータ) (2024-11-30T17:40:49Z) - LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。