論文の概要: Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising
- arxiv url: http://arxiv.org/abs/2511.08633v1
- Date: Thu, 13 Nov 2025 01:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.15839
- Title: Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising
- Title(参考訳): Time-to-Move:Dual-Clock Denoisingによるトレーニング不要モーション制御ビデオ生成
- Authors: Assaf Singer, Noam Rotstein, Amir Mann, Ron Kimmel, Or Litany,
- Abstract要約: 拡散に基づくビデオ生成はリアルなビデオを生成することができるが、既存の画像やテキストベースの条件付けでは正確なモーションコントロールが得られない。
我々は、モーションおよび外観制御ビデオ生成のためのトレーニング不要なプラグイン・アンド・プレイフレームワークであるTime-to-Move (TTM)を紹介した。
- 参考スコア(独自算出の注目度): 23.044483059783143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based video generation can create realistic videos, yet existing image- and text-based conditioning fails to offer precise motion control. Prior methods for motion-conditioned synthesis typically require model-specific fine-tuning, which is computationally expensive and restrictive. We introduce Time-to-Move (TTM), a training-free, plug-and-play framework for motion- and appearance-controlled video generation with image-to-video (I2V) diffusion models. Our key insight is to use crude reference animations obtained through user-friendly manipulations such as cut-and-drag or depth-based reprojection. Motivated by SDEdit's use of coarse layout cues for image editing, we treat the crude animations as coarse motion cues and adapt the mechanism to the video domain. We preserve appearance with image conditioning and introduce dual-clock denoising, a region-dependent strategy that enforces strong alignment in motion-specified regions while allowing flexibility elsewhere, balancing fidelity to user intent with natural dynamics. This lightweight modification of the sampling process incurs no additional training or runtime cost and is compatible with any backbone. Extensive experiments on object and camera motion benchmarks show that TTM matches or exceeds existing training-based baselines in realism and motion control. Beyond this, TTM introduces a unique capability: precise appearance control through pixel-level conditioning, exceeding the limits of text-only prompting. Visit our project page for video examples and code: https://time-to-move.github.io/.
- Abstract(参考訳): 拡散に基づくビデオ生成はリアルなビデオを生成することができるが、既存の画像およびテキストベースの条件付けでは正確なモーションコントロールが得られない。
運動条件合成の以前の方法は、通常、計算コストが高く制限的なモデル固有の微調整を必要とする。
我々は,映像間拡散モデル(I2V)を用いたモーションおよび外観制御ビデオ生成のためのトレーニング不要なプラグイン・アンド・プレイフレームワークであるTime-to-Move (TTM)を紹介した。
私たちのキーとなる洞察は、カットアンドドラッグや深さに基づく再投影のようなユーザフレンドリな操作によって得られる粗い参照アニメーションを使用することです。
SDEditによる画像編集における粗いレイアウトキューの使用により、粗いアニメーションを粗いモーションキューとして扱い、そのメカニズムをビデオ領域に適応させる。
我々はイメージコンディショニングで外観を保ち、動作特定領域の強いアライメントを強制する領域依存戦略であるデュアルクロック・デノナイジングを導入し、他の場所での柔軟性を許容し、ユーザ意図と自然なダイナミクスとのバランスをとる。
サンプリングプロセスのこの軽量な変更は、追加のトレーニングやランタイムコストを伴わず、バックボーンと互換性がある。
オブジェクトとカメラのモーションベンチマークによる大規模な実験では、TTMは現実性やモーションコントロールにおいて既存のトレーニングベースのベースラインと一致しているか、あるいは超えている。
さらに、TTMには、ピクセルレベルの条件付けによる正確な外観制御、テキストのみのプロンプトの限界を超えたユニークな機能が導入されている。
ビデオの例とコードについては、プロジェクトページを参照してください。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。
提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文 参考訳(メタデータ) (2025-05-28T23:49:18Z) - MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。