論文の概要: 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation
- arxiv url: http://arxiv.org/abs/2412.07759v1
- Date: Tue, 10 Dec 2024 18:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:47.305476
- Title: 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation
- Title(参考訳): 3DTrajMaster:ビデオ生成におけるマルチエンティティ動作のための3D軌道のマスタリング
- Authors: Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin,
- Abstract要約: 制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
- 参考スコア(独自算出の注目度): 83.98251722144195
- License:
- Abstract: This paper aims to manipulate multi-entity 3D motions in video generation. Previous methods on controllable video generation primarily leverage 2D control signals to manipulate object motions and have achieved remarkable synthesis results. However, 2D control signals are inherently limited in expressing the 3D nature of object motions. To overcome this problem, we introduce 3DTrajMaster, a robust controller that regulates multi-entity dynamics in 3D space, given user-desired 6DoF pose (location and rotation) sequences of entities. At the core of our approach is a plug-and-play 3D-motion grounded object injector that fuses multiple input entities with their respective 3D trajectories through a gated self-attention mechanism. In addition, we exploit an injector architecture to preserve the video diffusion prior, which is crucial for generalization ability. To mitigate video quality degradation, we introduce a domain adaptor during training and employ an annealed sampling strategy during inference. To address the lack of suitable training data, we construct a 360-Motion Dataset, which first correlates collected 3D human and animal assets with GPT-generated trajectory and then captures their motion with 12 evenly-surround cameras on diverse 3D UE platforms. Extensive experiments show that 3DTrajMaster sets a new state-of-the-art in both accuracy and generalization for controlling multi-entity 3D motions. Project page: http://fuxiao0719.github.io/projects/3dtrajmaster
- Abstract(参考訳): 本稿では,映像生成における多自由度3D動作の操作を目的とした。
従来の制御可能なビデオ生成法は主に2次元制御信号を利用して物体の動きを操作し、優れた合成結果を得た。
しかし、2D制御信号は、本来、物体の動きの3D特性を表現するのに限られている。
この問題を解決するために、3DTrajMasterを導入する。これは3次元空間におけるマルチエンタリティダイナミクスを制御し、ユーザの希望するエンティティの6DoFポーズ(位置と回転)シーケンスを考慮に入れた頑健なコントローラである。
提案手法のコアとなる3次元移動接地オブジェクトインジェクタは,複数の入力エンティティをそれぞれの3次元軌道に融合させる。
さらに,ビデオ拡散を事前に保持するためにインジェクタアーキテクチャを利用する。
映像品質の劣化を軽減するため、トレーニング中にドメインアダプタを導入し、推論中にアニールサンプリング戦略を採用する。
適切なトレーニングデータの欠如に対処するため,まずGPT生成軌道で収集した3次元人・動物の資産を相関付け,12枚の等周カメラで様々な3次元UEプラットフォーム上で撮影する360-Motion Datasetを構築した。
大規模な実験により、3DTrajMasterは、多心性3D運動を制御するための精度と一般化の両方に新しい最先端の技術を設定できることが示されている。
プロジェクトページ: http://fuxiao0719.github.io/projects/3dtrajmaster
関連論文リスト
- CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation [76.72787726497343]
CineMasterは3D認識と制御可能なテキスト・ビデオ生成のためのフレームワークである。
私たちのゴールは、プロの映画監督と同等のコントロール性を持つユーザーを力づけることです。
論文 参考訳(メタデータ) (2025-02-12T18:55:36Z) - LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis [80.2461057573121]
本研究では,新しい次元,すなわち深度次元との相互作用を増大させ,ユーザが軌道上の各点に対して相対的な深度を割り当てることを許す。
本稿では,オブジェクトマスクを数個のクラスタポイントに抽象化することで,画像から映像への3次元トラジェクトリ制御の先駆的手法を提案する。
静的画像から実写映像を生成する際の物体の動きを正確に操作する手法であるLeviTorの有効性を検証する実験を行った。
論文 参考訳(メタデータ) (2024-12-19T18:59:56Z) - Lifting Motion to the 3D World via 2D Diffusion [19.64801640086107]
トレーニング用に2次元ポーズシーケンスのみを用いてグローバルな3次元動作を予測する新しいアプローチであるMVLiftを紹介する。
MVLiftは、人間のポーズ、人間とオブジェクトの相互作用、動物のポーズなど、さまざまな領域を一般化する。
論文 参考訳(メタデータ) (2024-11-27T23:26:56Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - SpatialTracker: Tracking Any 2D Pixels in 3D Space [71.58016288648447]
本稿では,画像投影による問題点を軽減するために,3次元空間における点軌道の推定を提案する。
この手法はSpatialTrackerと呼ばれ、2Dピクセルをモノクロ深度推定器を用いて3Dにリフトする。
3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。
論文 参考訳(メタデータ) (2024-04-05T17:59:25Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for
Autonomous Driving [3.8073142980733]
本稿では,モノクローナルビデオのみからエンドツーエンドに3D検出と3D追跡を共同で行うことを提案する。
Time3Dは21.4%のAMOTA、13.6%のAMOTPをnuScenesの3D追跡ベンチマークで達成し、全競合を抜いた。
論文 参考訳(メタデータ) (2022-05-30T06:41:10Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。