論文の概要: MoMaps: Semantics-Aware Scene Motion Generation with Motion Maps
- arxiv url: http://arxiv.org/abs/2510.11107v1
- Date: Mon, 13 Oct 2025 07:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.25159
- Title: MoMaps: Semantics-Aware Scene Motion Generation with Motion Maps
- Title(参考訳): MoMaps: モーションマップを用いたセマンティックなシーンモーション生成
- Authors: Jiahui Lei, Kyle Genova, George Kopanas, Noah Snavely, Leonidas Guibas,
- Abstract要約: 本稿では,実世界の映像から意味的かつ機能的に意味のある3D動画を学習する上での課題について論じる。
既存の生成画像モデルから生成可能な3次元シーン動作のための画素対応モーションマップ表現を提案する。
- 参考スコア(独自算出の注目度): 31.864441290577545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenge of learning semantically and functionally meaningful 3D motion priors from real-world videos, in order to enable prediction of future 3D scene motion from a single input image. We propose a novel pixel-aligned Motion Map (MoMap) representation for 3D scene motion, which can be generated from existing generative image models to facilitate efficient and effective motion prediction. To learn meaningful distributions over motion, we create a large-scale database of MoMaps from over 50,000 real videos and train a diffusion model on these representations. Our motion generation not only synthesizes trajectories in 3D but also suggests a new pipeline for 2D video synthesis: first generate a MoMap, then warp an image accordingly and complete the warped point-based renderings. Experimental results demonstrate that our approach generates plausible and semantically consistent 3D scene motion.
- Abstract(参考訳): 本稿では,実世界の映像から意味的かつ機能的に意味のある3D映像を学習し,単一の入力画像から将来の3D映像を予測できるようにするという課題に対処する。
本稿では,既存の生成画像モデルから生成可能な3次元シーン動作のための新しいピクセル対応モーションマップ(MoMap)表現を提案する。
動きよりも意味のある分布を学習するために,5万本以上の実ビデオからMoMapの大規模データベースを作成し,これらの表現上で拡散モデルを訓練する。
私たちのモーション生成は3Dで軌跡を合成するだけでなく、2Dビデオ合成のためのパイプラインも提案します。
実験結果から,本手法は3次元シーンの動作を可塑性かつセマンティックに整合的に生成することが示された。
関連論文リスト
- Drag4D: Align Your Motion with Text-Driven 3D Scene Generation [77.79131321983677]
Drag4Dはインタラクティブなフレームワークで、テキスト駆動の3Dシーン生成にオブジェクトの動き制御を統合する。
このフレームワークにより、ユーザーは単一の画像から生成された3Dオブジェクトに対して3Dトラジェクトリを定義し、それらを高品質な3D背景にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-09-26T05:23:45Z) - DreamJourney: Perpetual View Generation with Video Diffusion Models [91.88716097573206]
永続ビュー生成は、単一の入力画像からのみ任意のカメラ軌跡に対応する長期映像を合成することを目的としている。
近年の手法では、予め訓練されたテキスト・画像拡散モデルを用いて、カメラの動きに沿った未確認領域の新しいコンテンツを合成する。
本稿では,映像拡散モデルの世界シミュレーション能力を活用して,新たなシーンビュー生成タスクを起動する2段階フレームワークであるDreamJourneyを紹介する。
論文 参考訳(メタデータ) (2025-06-21T12:51:34Z) - Articulate That Object Part (ATOP): 3D Part Articulation via Text and Motion Personalization [9.231848716070257]
ATOP(Articulate That Object Part)は、静的な3Dオブジェクトを明瞭化するためのモーションパーソナライゼーションに基づく、新しい数ショット方式である。
提案手法は,現実的な動画を生成し,より正確で一般化可能な3次元動作パラメータを予測できることを示す。
論文 参考訳(メタデータ) (2025-02-11T05:47:16Z) - Motion-2-to-3: Leveraging 2D Motion Data to Boost 3D Motion Generation [43.915871360698546]
人間の2Dビデオは、幅広いスタイルやアクティビティをカバーし、広範にアクセス可能なモーションデータのソースを提供する。
本研究では,局所的な関節運動をグローバルな動きから切り離し,局所的な動きを2次元データから効率的に学習する枠組みを提案する。
提案手法は,2次元データを効率的に利用し,リアルな3次元動作生成をサポートし,支援対象の動作範囲を拡大する。
論文 参考訳(メタデータ) (2024-12-17T17:34:52Z) - Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T08:54:50Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - DEMOS: Dynamic Environment Motion Synthesis in 3D Scenes via Local
Spherical-BEV Perception [54.02566476357383]
本研究では,動的環境運動合成フレームワーク(DEMOS)を提案する。
次に、最終動作合成のために潜在動作を動的に更新する。
その結果,本手法は従来の手法よりも優れ,動的環境の処理性能も優れていた。
論文 参考訳(メタデータ) (2024-03-04T05:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。