論文の概要: Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising
- arxiv url: http://arxiv.org/abs/2511.08633v1
- Date: Thu, 13 Nov 2025 01:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.15839
- Title: Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising
- Title(参考訳): Time-to-Move:Dual-Clock Denoisingによるトレーニング不要モーション制御ビデオ生成
- Authors: Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany,
- Abstract要約: 拡散に基づくビデオ生成はリアルなビデオを生成することができるが、既存の画像やテキストベースの条件付けでは正確なモーションコントロールが得られない。
我々は、モーションおよび外観制御ビデオ生成のためのトレーニング不要なプラグイン・アンド・プレイフレームワークであるTime-to-Move (TTM)を紹介した。
- 参考スコア(独自算出の注目度): 23.044483059783143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude reference animations obtained through user-friendly manipulations such as cut-and-drag or depth-based reprojection. Motivated by SDEdit's use of coarse layout cues for image editing, we treat the crude animations as coarse motion cues and adapt the mechanism to the video domain. We preserve appearance with image conditioning and introduce dual-clock denoising, a region-dependent strategy that enforces strong alignment in motion-specified regions while allowing flexibility elsewhere, balancing fidelity to user intent with natural dynamics. This lightweight modification of the sampling process incurs no additional training or runtime cost and is compatible with any backbone. Extensive experiments on object and camera motion benchmarks show that TTM matches or exceeds existing training-based baselines in realism and motion control. Beyond this, TTM introduces a unique capability: precise appearance control through pixel-level conditioning, exceeding the limits of text-only prompting. Visit our project page for video examples and code: https://time-to-move.github.io/.
- Abstract(参考訳): 拡散に基づくビデオ生成はリアルなビデオを生成することができるが、既存の画像およびテキストベースの条件付けでは正確なモーションコントロールが得られない。
運動条件合成の以前の方法は、通常、計算コストが高く制限的なモデル固有の微調整を必要とする。
我々は,映像間拡散モデル(I2V)を用いたモーションおよび外観制御ビデオ生成のためのトレーニング不要なプラグイン・アンド・プレイフレームワークであるTime-to-Move (TTM)を紹介した。
私たちのキーとなる洞察は、カットアンドドラッグや深さに基づく再投影のようなユーザフレンドリな操作によって得られる粗い参照アニメーションを使用することです。
SDEditによる画像編集における粗いレイアウトキューの使用により、粗いアニメーションを粗いモーションキューとして扱い、そのメカニズムをビデオ領域に適応させる。
我々はイメージコンディショニングで外観を保ち、動作特定領域の強いアライメントを強制する領域依存戦略であるデュアルクロック・デノナイジングを導入し、他の場所での柔軟性を許容し、ユーザ意図と自然なダイナミクスとのバランスをとる。
サンプリングプロセスのこの軽量な変更は、追加のトレーニングやランタイムコストを伴わず、バックボーンと互換性がある。
オブジェクトとカメラのモーションベンチマークによる大規模な実験では、TTMは現実性やモーションコントロールにおいて既存のトレーニングベースのベースラインと一致しているか、あるいは超えている。
さらに、TTMには、ピクセルレベルの条件付けによる正確な外観制御、テキストのみのプロンプトの限界を超えたユニークな機能が導入されている。
ビデオの例とコードについては、プロジェクトページを参照してください。
関連論文リスト
- MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。