論文の概要: Motion Forcing: A Decoupled Framework for Robust Video Generation in Motion Dynamics
- arxiv url: http://arxiv.org/abs/2603.10408v1
- Date: Wed, 11 Mar 2026 04:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.782027
- Title: Motion Forcing: A Decoupled Framework for Robust Video Generation in Motion Dynamics
- Title(参考訳): Motion Forcing:モーションダイナミクスにおけるロバストビデオ生成のための分離されたフレームワーク
- Authors: Tianshuo Xu, Zhifei Chen, Leyi Wu, Hao Lu, Ying-cong Chen,
- Abstract要約: ビデオ生成平衡の安定化を目的としたフレームワークである textbfMotion Forcing を導入する。
我々の重要な洞察は、視覚合成から物理的推論を明確に分離することである。
自動運転ベンチマークの実験によると、Motion Forcingは最先端のベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 37.22501359080204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ultimate goal of video generation is to satisfy a fundamental trilemma: achieving high visual quality, maintaining rigorous physical consistency, and enabling precise controllability. While recent models can maintain this balance in simple, isolated scenarios, we observe that this equilibrium is fragile and often breaks down as scene complexity increases (e.g., involving collisions or dense traffic). To address this, we introduce \textbf{Motion Forcing}, a framework designed to stabilize this trilemma even in complex generative tasks. Our key insight is to explicitly decouple physical reasoning from visual synthesis via a hierarchical \textbf{``Point-Shape-Appearance''} paradigm. This approach decomposes generation into verifiable stages: modeling complex dynamics as sparse geometric anchors (\textbf{Point}), expanding them into dynamic depth maps that explicitly resolve 3D geometry (\textbf{Shape}), and finally rendering high-fidelity textures (\textbf{Appearance}). Furthermore, to foster robust physical understanding, we employ a \textbf{Masked Point Recovery} strategy. By randomly masking input anchors during training and enforcing the reconstruction of complete dynamic depth, the model is compelled to move beyond passive pattern matching and learn latent physical laws (e.g., inertia) to infer missing trajectories. Extensive experiments on autonomous driving benchmarks show that Motion Forcing significantly outperforms state-of-the-art baselines, maintaining trilemma stability across complex scenes. Evaluations on physics and robotics further confirm our framework's generality.
- Abstract(参考訳): ビデオ生成の最終的な目標は、高い視覚的品質を達成し、厳密な物理的一貫性を維持し、正確な制御性を実現するという、基本的なトリレンマを満たすことである。
最近のモデルは、単純で孤立したシナリオでこのバランスを維持することができるが、この平衡は脆弱であり、シーンの複雑さが増加するにつれてしばしば崩壊する(例えば衝突や密集したトラフィックを含む)。
これを解決するために、複雑な生成タスクにおいてもこのトリレンマを安定化させるように設計されたフレームワークである \textbf{Motion Forcing} を導入する。
我々の重要な洞察は、階層的 \textbf{``Point-Shape-Appearance'' パラダイムを通じて、視覚合成から物理的推論を明示的に分離することである。
このアプローチは生成を検証可能な段階に分解する: 複素力学をスパース幾何学的アンカーとしてモデル化し(\textbf{Point})、3次元幾何学を明確に解決する動的深さ写像に拡張し(\textbf{Shape})、最終的に高忠実なテクスチャをレンダリングする(\textbf{Appearance})。
さらに、ロバストな物理的理解を促進するため、我々は \textbf{Masked Point Recovery} 戦略を採用している。
トレーニング中に入力アンカーをランダムにマスキングし、完全な動的深さの再構築を強制することにより、モデルは受動的パターンマッチングを超えて、欠落した軌跡を推測するために潜在物理法則(例えば慣性)を学習する。
自律走行ベンチマークの大規模な実験は、モーションフォースが最先端のベースラインを大幅に上回り、複雑な場面でトリレンマ安定性を維持することを示している。
物理学とロボティクスの評価は、我々のフレームワークの一般性をさらに確認する。
関連論文リスト
- Lie Flow: Video Dynamic Fields Modeling and Predicting with Lie Algebra as Geometric Physics Principle [48.28007238304401]
LieFlowは動的放射率表現フレームワークで、動きを明示的にモデル化する。
SE(3)変換場は、運動の連続性と幾何学的整合性を維持するために物理的に着想を得た制約を強制する。
結果,SE(3)に基づくモーションモデリングは動的4Dシーンを表現するための頑健で物理的基盤の枠組みを提供することを確認した。
論文 参考訳(メタデータ) (2026-02-25T07:19:18Z) - PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement [89.35154754765502]
PhyScensisは物理エンジンを動力とするエージェントベースのフレームワークで、物理的に可視なシーン構成を生成する。
本フレームワークは,微粒なテキスト記述や数値パラメータに対する強い制御性を保っている。
実験の結果,本手法はシーンの複雑さ,視覚的品質,身体的精度において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-02-16T17:55:25Z) - Fast-SAM3D: 3Dfy Anything in Images but Faster [65.17322167628367]
SAM3Dは複雑なシーンからスケーラブルでオープンな3D再構築を可能にする。
textbfFast-SAM3Dは、計算を瞬時生成の複雑さと整合させる、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T04:27:59Z) - AGILE: Hand-Object Interaction Reconstruction from Video via Agentic Generation [45.753757870577196]
本稿では,対話学習のためのエージェント生成にパラダイムを転換する,堅牢なフレームワークAGILEを紹介する。
我々はAGILEがグローバルな幾何学的精度でベースラインを上回り、先行技術が頻繁に崩壊する挑戦的なシーケンスに対して、例外的な堅牢性を証明していることを示す。
論文 参考訳(メタデータ) (2026-02-04T15:42:58Z) - IDSplat: Instance-Decomposed 3D Gaussian Splatting for Driving Scenes [25.939318593012484]
動的駆動シーンの再構築は、センサ・リアリスティック・シミュレーションによる自律システム開発に不可欠である。
我々は,動的シーンを明示的なインスタンス分解と学習可能なモーショントラジェクトリで再構成する,自己教師型3次元ガウススティングフレームワークIDSplatを提案する。
本手法は, インスタンスレベルの分解を維持しつつ, 競合する再構成品質を実現し, 再トレーニングを伴わずに, 多様なシーケンスやビュー密度を一般化する。
論文 参考訳(メタデータ) (2025-11-24T15:48:08Z) - SplitGaussian: Reconstructing Dynamic Scenes via Visual Geometry Decomposition [14.381223353489062]
textbfSplitGaussianは、シーン表現を静的および動的コンポーネントに明示的に分解する新しいフレームワークである。
SplitGaussianは、レンダリング品質、幾何学的安定性、動き分離において、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-08-06T09:00:13Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。