論文の概要: 3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
- arxiv url: http://arxiv.org/abs/2602.03796v1
- Date: Tue, 03 Feb 2026 17:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.623667
- Title: 3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation
- Title(参考訳): ビューアダプティブなヒューマンビデオ生成のための3次元動作制御
- Authors: Zhixue Fang, Xu He, Songlin Tang, Haoxian Zhang, Qingfeng Li, Xiaoqiang Liu, Pengfei Wan, Kun Gai,
- Abstract要約: 2Dは、新規な視点合成を前に、運動を駆動的視点に厳密に結合する。
3DiMoは、予め訓練されたビデオジェネレータでモーションエンコーダを訓練し、駆動フレームをコンパクトでビューに依存しないモーショントークンに蒸留する。
3DiMoは、フレキシブルでテキスト駆動のカメラコントロールで運転動作を忠実に再現する。
- 参考スコア(独自算出の注目度): 29.389246008057473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for human motion control in video generation typically rely on either 2D poses or explicit 3D parametric models (e.g., SMPL) as control signals. However, 2D poses rigidly bind motion to the driving viewpoint, precluding novel-view synthesis. Explicit 3D models, though structurally informative, suffer from inherent inaccuracies (e.g., depth ambiguity and inaccurate dynamics) which, when used as a strong constraint, override the powerful intrinsic 3D awareness of large-scale video generators. In this work, we revisit motion control from a 3D-aware perspective, advocating for an implicit, view-agnostic motion representation that naturally aligns with the generator's spatial priors rather than depending on externally reconstructed constraints. We introduce 3DiMo, which jointly trains a motion encoder with a pretrained video generator to distill driving frames into compact, view-agnostic motion tokens, injected semantically via cross-attention. To foster 3D awareness, we train with view-rich supervision (i.e., single-view, multi-view, and moving-camera videos), forcing motion consistency across diverse viewpoints. Additionally, we use auxiliary geometric supervision that leverages SMPL only for early initialization and is annealed to zero, enabling the model to transition from external 3D guidance to learning genuine 3D spatial motion understanding from the data and the generator's priors. Experiments confirm that 3DiMo faithfully reproduces driving motions with flexible, text-driven camera control, significantly surpassing existing methods in both motion fidelity and visual quality.
- Abstract(参考訳): ビデオ生成における人間の動作制御の既存の方法は、通常、制御信号として2Dポーズまたは明示的な3Dパラメトリックモデル(SMPLなど)に依存する。
しかし、2Dは、新規な視点合成を前に、運動を駆動視点に厳密に結合する。
構造的に有意ではあるが、3Dモデルは固有の不正確さ(例えば、深さの曖昧さと不正確なダイナミクス)に悩まされ、強い制約として使用されると、大規模ビデオジェネレータの強力な内在的3D認識をオーバーライドする。
本研究では,外部の制約に依存せず,自然に発電機の空間的先行と整合する暗黙的,視点に依存しない動作表現を提唱し,3次元認識の観点から動作制御を再考する。
本稿では3DiMoを紹介する。3DiMoは、予め訓練されたビデオ生成装置と共同で動作エンコーダを訓練し、駆動フレームをコンパクトでビューに依存しないモーショントークンに蒸留し、意味的にクロスアテンションを介して注入する。
3D意識を高めるために、ビューリッチな監督(シングルビュー、マルチビュー、移動カメラビデオ)を訓練し、様々な視点で動きの一貫性を強制する。
さらに、SMPLを早期初期化にのみ活用し、ゼロに熱処理した補助幾何学的監督を用いて、モデルが外部の3Dガイダンスからデータと発電機の先行情報から真の3D空間運動理解へ移行できるようにする。
3DiMoは、フレキシブルでテキスト駆動のカメラコントロールで、既存の動きの忠実度と視覚的品質の両方でかなり上回っている。
関連論文リスト
- Learning to Control Physically-simulated 3D Characters via Generating and Mimicking 2D Motions [23.080971732537886]
Mimic2DMはビデオから抽出した2Dキーポイント軌跡から直接制御ポリシーを学習する新しい動作模倣フレームワークである。
提案手法は多目的であり,様々な領域にわたる物理的に可塑性かつ多様な動作を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2025-12-09T11:30:56Z) - Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation [73.73984727616198]
映像生成におけるカメラと人間の動きを正確に制御するための統合フレームワークUni3Cを提案する。
まず,フリーズビデオ生成バックボーンであるPCDControllerで学習したプラグイン・アンド・プレイ制御モジュールを提案する。
第2に,景観点雲とSMPL-X文字をシームレスに統合する推論フェーズの3次元ワールドガイダンスを提案する。
論文 参考訳(メタデータ) (2025-04-21T07:10:41Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
MagicDrive3Dは、コントロール可能な3Dストリートシーン生成のための新しいフレームワークである。
ロードマップ、3Dオブジェクト、テキスト記述を含むマルチコンディション制御をサポートする。
多様な高品質な3Dドライビングシーンを生成し、任意のビューレンダリングをサポートし、BEVセグメンテーションのような下流タスクを強化する。
論文 参考訳(メタデータ) (2024-05-23T12:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。