Fugu-MT 論文翻訳(概要): Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation

論文の概要: Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation

arxiv url: http://arxiv.org/abs/2401.10150v1
Date: Thu, 18 Jan 2024 17:22:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 15:49:35.985658
Title: Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation
Title（参考訳）: Motion-Zero:拡散映像生成のためのゼロショット移動物体制御フレームワーク
Authors: Changgu Chen, Junwei Shu, Lianggangxu Chen, Gaoqi He, Changbo Wang and Yang Li
Abstract要約: 本研究では,ゼロショット移動物体軌道制御フレームワークであるMotion-Zeroを提案する。本手法は、トレーニングプロセスなしで、様々な最先端ビデオ拡散モデルに柔軟に適用できる。
参考スコア（独自算出の注目度）: 10.951376101606357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent large-scale pre-trained diffusion models have demonstrated a powerful generative ability to produce high-quality videos from detailed text descriptions. However, exerting control over the motion of objects in videos generated by any video diffusion model is a challenging problem. In this paper, we propose a novel zero-shot moving object trajectory control framework, Motion-Zero, to enable a bounding-box-trajectories-controlled text-to-video diffusion model.To this end, an initial noise prior module is designed to provide a position-based prior to improve the stability of the appearance of the moving object and the accuracy of position. In addition, based on the attention map of the U-net, spatial constraints are directly applied to the denoising process of diffusion models, which further ensures the positional and spatial consistency of moving objects during the inference. Furthermore, temporal consistency is guaranteed with a proposed shift temporal attention mechanism. Our method can be flexibly applied to various state-of-the-art video diffusion models without any training process. Extensive experiments demonstrate our proposed method can control the motion trajectories of objects and generate high-quality videos.
Abstract（参考訳）: 最近の大規模事前学習拡散モデルは、詳細なテキスト記述から高品質のビデオを生成する強力な生成能力を示している。しかし、ビデオ拡散モデルによって生成されたビデオにおける物体の動きを制御することは難しい問題である。本稿では,ゼロショット移動物体軌道制御フレームワークであるMotion-Zeroを提案し,移動物体の外観の安定性と位置の精度を向上させるために,初期ノイズ先行モジュールを設計する。さらに、U-netの注意マップに基づいて、拡散モデルの復調過程に空間的制約を直接適用することにより、推論中の移動物体の位置的および空間的整合性を確保する。さらに、シフト時間注意機構により、時間整合性が保証される。本手法は, 訓練過程を必要とせず, 様々な映像拡散モデルに適用できる。提案手法は,物体の運動軌跡を制御し,高品質な映像を生成できることを示す。

関連論文リスト

Moaw: Unleashing Motion Awareness for Video Diffusion Models [71.34328578845721]
Moawは動画拡散モデルのための動き認識を解放するフレームワークである。我々は、映像から映像へのモダリティを、映像から映像への追跡へとシフトさせ、運動知覚のための拡散モデルを訓練する。次に、最強の動作情報をエンコードする特徴を識別する動きラベル付きデータセットを構築し、それらを構造的に同一の映像生成モデルに注入する。
論文参考訳（メタデータ） (2026-01-19T06:45:46Z)
Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance [107.25252623824296]
Wan-Moveは、ビデオ生成モデルにモーションコントロールを提供するフレームワークである。私たちの中核となる考え方は、動画を誘導するためのモーションアウェアを元の状態にすることです。 Wan-Moveは5秒、480pの動画を制作し、Kling 1.5の商用モーションブラシに対抗している。
論文参考訳（メタデータ） (2025-12-09T16:13:55Z)
LMP: Leveraging Motion Prior in Zero-Shot Video Generation with Diffusion Transformer [10.44905923812975]
ゼロショットビデオ生成のためのLMPフレームワークを提案する。本フレームワークでは,事前学習した拡散トランスフォーマーの強力な生成機能を活用し,生成した動画の動画をユーザが提供するモーションビデオを参照できるようにする。提案手法は, 生成品質, 即時ビデオの整合性, 制御能力における最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-20T10:18:29Z)
C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文参考訳（メタデータ） (2025-02-27T08:21:03Z)
MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文参考訳（メタデータ） (2025-02-18T19:12:51Z)
MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文参考訳（メタデータ） (2025-02-05T14:26:07Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control [42.506988751934685]
本研究では、特定の主題と動きの軌跡でビデオを生成することができるゼロショットビデオカスタマイズフレームワークDreamVideo-2を提案する。具体的には,対象学習におけるモデル固有の能力を活用する参照アテンションを導入する。我々は,ボックスマスクの頑健な動作信号を完全に活用して,高精度な動作制御を実現するためのマスク誘導型モーションモジュールを考案した。
論文参考訳（メタデータ） (2024-10-17T17:52:57Z)
Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文参考訳（メタデータ） (2024-06-09T03:44:35Z)
MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。 MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文参考訳（メタデータ） (2024-06-08T03:44:25Z)
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文参考訳（メタデータ） (2024-05-30T17:57:30Z)
Video Diffusion Models are Training-free Motion Interpreter and Controller [20.361790608772157]
本稿では,映像拡散モデルにおける動き認識機能を理解し,ローカライズし,操作するための新しい視点を提案する。コンテンツ相関情報とフィルタリング動作チャネルを除去し,MOFT(Motion FeaTure)を提案する。
論文参考訳（メタデータ） (2024-05-23T17:59:40Z)
MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文参考訳（メタデータ） (2024-04-24T10:28:54Z)
Motion Inversion for Video Customization [31.607669029754874]
本稿では,映像モデルにおける動き表現の探索における広範なギャップに対処する,動き生成のための新しいアプローチを提案する。本研究では,ビデオから抽出した時間的コヒーレントな埋め込みの集合であるMotion Embeddingsを紹介する。我々の貢献には、カスタマイズタスクのための調整されたモーション埋め込みと、本手法の実用的メリットと有効性を示すことが含まれる。
論文参考訳（メタデータ） (2024-03-29T14:14:22Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。 SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文参考訳（メタデータ） (2024-03-15T10:36:24Z)
Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文参考訳（メタデータ） (2024-02-05T16:30:57Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。 LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文参考訳（メタデータ） (2023-04-23T10:32:32Z)
Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文参考訳（メタデータ） (2022-10-27T02:45:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。