論文の概要: PoseTraj: Pose-Aware Trajectory Control in Video Diffusion
- arxiv url: http://arxiv.org/abs/2503.16068v1
- Date: Thu, 20 Mar 2025 12:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:33:50.934239
- Title: PoseTraj: Pose-Aware Trajectory Control in Video Diffusion
- Title(参考訳): PoseTraj:ビデオ拡散におけるPose-Aware Trajectory Control
- Authors: Longbin Ji, Lei Zhong, Pengfei Wei, Changjian Li,
- Abstract要約: 本稿では,2次元軌跡から3次元アライメントを生成できるポーズ対応ビデオドラギングモデルPoseTrajを紹介する。
提案手法は,新しい2段階のポーズアウェア事前学習フレームワークを採用し,多様な軌跡の3次元理解を改善した。
- 参考スコア(独自算出の注目度): 17.0187150041712
- License:
- Abstract: Recent advancements in trajectory-guided video generation have achieved notable progress. However, existing models still face challenges in generating object motions with potentially changing 6D poses under wide-range rotations, due to limited 3D understanding. To address this problem, we introduce PoseTraj, a pose-aware video dragging model for generating 3D-aligned motion from 2D trajectories. Our method adopts a novel two-stage pose-aware pretraining framework, improving 3D understanding across diverse trajectories. Specifically, we propose a large-scale synthetic dataset PoseTraj-10K, containing 10k videos of objects following rotational trajectories, and enhance the model perception of object pose changes by incorporating 3D bounding boxes as intermediate supervision signals. Following this, we fine-tune the trajectory-controlling module on real-world videos, applying an additional camera-disentanglement module to further refine motion accuracy. Experiments on various benchmark datasets demonstrate that our method not only excels in 3D pose-aligned dragging for rotational trajectories but also outperforms existing baselines in trajectory accuracy and video quality.
- Abstract(参考訳): 近年の軌跡誘導映像の進歩は顕著な進歩を遂げている。
しかし、既存のモデルでは3次元の理解が限られているため、広範囲の回転で6次元のポーズが変化する可能性があるため、物体の動きを発生させるという課題に直面している。
この問題に対処するため,PoseTrajは2次元軌跡から3次元的な動きを生成するためのポーズ対応ビデオドラッグングモデルである。
提案手法は,新しい2段階のポーズアウェア事前学習フレームワークを採用し,多様な軌跡の3次元理解を改善した。
具体的には, 大規模合成データセットPoseTraj-10Kについて, 回転軌道に追従する物体の10kビデオを収録し, 3次元境界ボックスを中間監視信号として組み込むことで, 物体のポーズ変化のモデル知覚を高める。
その後、実写ビデオの軌跡制御モジュールを微調整し、さらに動きの精度を向上するために追加のカメラアンタングルメントモジュールを適用した。
様々なベンチマーク・データセットを用いた実験により,本手法は回転軌跡の3次元ポーズアライン・ドラッギングに優れるだけでなく,軌道精度や映像品質において,既存のベースラインよりも優れることが示された。
関連論文リスト
- LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - SpatialTracker: Tracking Any 2D Pixels in 3D Space [71.58016288648447]
本稿では,画像投影による問題点を軽減するために,3次元空間における点軌道の推定を提案する。
この手法はSpatialTrackerと呼ばれ、2Dピクセルをモノクロ深度推定器を用いて3Dにリフトする。
3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。
論文 参考訳(メタデータ) (2024-04-05T17:59:25Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - Cinematic Behavior Transfer via NeRF-based Differentiable Filming [63.1622492808519]
既存のSLAM手法は動的シーンの制限に直面し、人間のポーズ推定はしばしば2次元投影に焦点を当てる。
まず,逆撮影行動推定手法を提案する。
次に,新しい2Dビデオや3D仮想環境に様々な撮影タイプを転送できる映像転送パイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:56:58Z) - Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred
Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。
提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-29T11:25:14Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。