論文の概要: Generative Video Motion Editing with 3D Point Tracks
- arxiv url: http://arxiv.org/abs/2512.02015v1
- Date: Mon, 01 Dec 2025 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.042684
- Title: Generative Video Motion Editing with 3D Point Tracks
- Title(参考訳): 3Dポイントトラックによる映像運動編集
- Authors: Yao-Chih Lee, Zhoutong Zhang, Jiahui Huang, Jui-Hsien Wang, Joon-Young Lee, Jia-Bin Huang, Eli Shechtman, Zhengqi Li,
- Abstract要約: 本稿では,カメラと物体の動きを共同編集できるトラックコンディショニングV2Vフレームワークを提案する。
我々は、ソースビデオと、ソースとターゲットの動きを表す3Dポイントトラックのペアにモデルを条件付けすることで、これを実現する。
我々のモデルは、関節カメラ/オブジェクト操作、モーション転送、非剛性変形を含む多様なモーション編集をサポートしている。
- 参考スコア(独自算出の注目度): 66.55707897151909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera and object motions are central to a video's narrative. However, precisely editing these captured motions remains a significant challenge, especially under complex object movements. Current motion-controlled image-to-video (I2V) approaches often lack full-scene context for consistent video editing, while video-to-video (V2V) methods provide viewpoint changes or basic object translation, but offer limited control over fine-grained object motion. We present a track-conditioned V2V framework that enables joint editing of camera and object motion. We achieve this by conditioning a video generation model on a source video and paired 3D point tracks representing source and target motions. These 3D tracks establish sparse correspondences that transfer rich context from the source video to new motions while preserving spatiotemporal coherence. Crucially, compared to 2D tracks, 3D tracks provide explicit depth cues, allowing the model to resolve depth order and handle occlusions for precise motion editing. Trained in two stages on synthetic and real data, our model supports diverse motion edits, including joint camera/object manipulation, motion transfer, and non-rigid deformation, unlocking new creative potential in video editing.
- Abstract(参考訳): カメラと物体の動きは、ビデオの物語の中心である。
しかし、これらの捕獲された動きを正確に編集することは、特に複雑な物体の動きにおいて重要な課題である。
現在の動画制御型画像合成(I2V)アプローチは、一貫したビデオ編集のためのフルシーンコンテキストを欠くことが多いが、ビデオ合成(V2V)手法は視点変化や基本的なオブジェクト変換を提供するが、細かなオブジェクトの動きを限定的に制御する。
本稿では,カメラと物体の動きを共同編集できるトラックコンディショニングV2Vフレームワークを提案する。
我々は、ソースビデオと、ソースとターゲットの動きを表す3Dポイントトラックのペアにビデオ生成モデルを条件付けすることで、これを実現する。
これらの3Dトラックは、時空間コヒーレンスを保ちながら、ソースビデオから新しい動きにリッチなコンテキストを伝達するスパース対応を確立する。
重要な点として、3Dトラックは2Dトラックと比較して明確な奥行きの手がかりを提供しており、モデルが奥行きの順序を解決し、正確なモーション編集のためにオクルージョンを処理することができる。
合成データと実データに関する2段階のトレーニングを行ない、関節カメラ/オブジェクト操作、モーショントランスファー、非剛性変形などの多様な動作編集をサポートし、ビデオ編集における新たな創造的ポテンシャルを解き放つ。
関連論文リスト
- MotionV2V: Editing Motion in a Video [53.791975554391534]
入力から抽出したスパーストラジェクトリを編集し,映像の動きを変化させることを提案する。
入力と出力の軌跡のずれを「運動編集」と呼ぶ。
私たちのアプローチでは、任意のタイムスタンプから始まり、自然に伝播する編集が可能になります。
論文 参考訳(メタデータ) (2025-11-25T18:57:25Z) - RealisMotion: Decomposed Human Motion Control and Video Generation in the World Space [28.70181587812075]
本研究では,外見,背景,軌道からの動作を明示的に分離する枠組みを提案する。
本手法は,要素ワイド制御性と全映像品質の両面において,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-12T03:02:23Z) - Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy [48.72918598961146]
本稿では,精密で一貫したビデオ編集のための3Dプロキシを組み込んだ新しいフレームワークであるShape-for-Motionを紹介する。
我々のフレームワークは、ポーズ編集、回転、スケーリング、翻訳、テクスチャ修正、オブジェクト合成など、ビデオフレーム間の精密で物理的に一貫性のある操作をサポートしています。
論文 参考訳(メタデータ) (2025-06-27T17:59:01Z) - ConMo: Controllable Motion Disentanglement and Recomposition for Zero-Shot Motion Transfer [44.33224798292861]
ConMoは、被写体の動きとカメラの動きを歪め、再構成するフレームワークである。
多様な対象に対してより正確なモーションコントロールを可能にし、マルチオブジェクトシナリオのパフォーマンスを向上させる。
ConMoは、被写体のサイズや位置の編集、被写体除去、セマンティックな修正、カメラモーションシミュレーションなど、幅広いアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2025-04-03T10:15:52Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Cinematic Behavior Transfer via NeRF-based Differentiable Filming [63.1622492808519]
既存のSLAM手法は動的シーンの制限に直面し、人間のポーズ推定はしばしば2次元投影に焦点を当てる。
まず,逆撮影行動推定手法を提案する。
次に,新しい2Dビデオや3D仮想環境に様々な撮影タイプを転送できる映像転送パイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:56:58Z) - Decoupling Dynamic Monocular Videos for Dynamic View Synthesis [50.93409250217699]
動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。
具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
論文 参考訳(メタデータ) (2023-04-04T11:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。