論文の概要: MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2412.05848v1
- Date: Sun, 08 Dec 2024 08:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:07.577342
- Title: MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video Generation
- Title(参考訳): MotionStone: 画像・映像生成のための拡散変換器を用いた分離運動強度変調
- Authors: Shuwei Shi, Biao Gong, Xi Chen, Dandan Zheng, Shuai Tan, Zizheng Yang, Yuyuan Li, Jingwen He, Kecheng Zheng, Jingdong Chen, Ming Yang, Yinqiang Zheng,
- Abstract要約: 静止画像に画像間(I2V)生成を条件付け、動き強度を付加的な制御信号として最近強化した。
これらの動き認識モデルは多様な動きパターンを生成するために魅力的だが、そのようなモデルを野生の大規模ビデオでトレーニングするための信頼性の高い動き推定器は存在しない。
本稿では,映像中の物体とカメラのデカップリング運動強度を計測できる新しい動き推定器の課題に対処する。
- 参考スコア(独自算出の注目度): 55.238542326124545
- License:
- Abstract: The image-to-video (I2V) generation is conditioned on the static image, which has been enhanced recently by the motion intensity as an additional control signal. These motion-aware models are appealing to generate diverse motion patterns, yet there lacks a reliable motion estimator for training such models on large-scale video set in the wild. Traditional metrics, e.g., SSIM or optical flow, are hard to generalize to arbitrary videos, while, it is very tough for human annotators to label the abstract motion intensity neither. Furthermore, the motion intensity shall reveal both local object motion and global camera movement, which has not been studied before. This paper addresses the challenge with a new motion estimator, capable of measuring the decoupled motion intensities of objects and cameras in video. We leverage the contrastive learning on randomly paired videos and distinguish the video with greater motion intensity. Such a paradigm is friendly for annotation and easy to scale up to achieve stable performance on motion estimation. We then present a new I2V model, named MotionStone, developed with the decoupled motion estimator. Experimental results demonstrate the stability of the proposed motion estimator and the state-of-the-art performance of MotionStone on I2V generation. These advantages warrant the decoupled motion estimator to serve as a general plug-in enhancer for both data processing and video generation training.
- Abstract(参考訳): 静止画像上には、映像間(I2V)生成が条件付けられており、これは最近、追加の制御信号として動き強度によって拡張されている。
これらの動き認識モデルは多様な動きパターンを生成するために魅力的だが、そのようなモデルを野生の大規模ビデオでトレーニングするための信頼性の高い動き推定器は存在しない。
従来のメトリクス、例えばSSIMや光学フローは任意のビデオに一般化するのは難しいが、人間のアノテータが抽象的な動きの強度をラベル付けするのは非常に難しい。
さらに、この動き強度は、これまで研究されていない局所的な物体の動きと大域的なカメラの動きの両方を明らかにする。
本稿では,映像中の物体とカメラのデカップリング運動強度を計測できる新しい動き推定器の課題に対処する。
ランダムにペアリングされたビデオのコントラスト学習を活用し、動画をより強い運動強度で区別する。
このようなパラダイムはアノテーションに親しみやすく、運動推定における安定した性能を達成するためにスケールアップが容易である。
次に、分離された動き推定器を用いて開発した新しいI2Vモデル、MotionStoneを提案する。
実験により, 提案した動き推定器の安定性と, I2V生成におけるMotionStoneの最先端性能が示された。
これらの利点は、分離された動き推定器がデータ処理とビデオ生成トレーニングの両方のための一般的なプラグインエンハンサーとして機能することを保証している。
関連論文リスト
- MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - A Plug-and-Play Physical Motion Restoration Approach for In-the-Wild High-Difficulty Motions [56.709280823844374]
動作コンテキストとビデオマスクを利用して、欠陥のある動作を修復するマスクベースの動作補正モジュール(MCM)を導入する。
また,運動模倣のための事前訓練および適応手法を用いた物理ベースの運動伝達モジュール (PTM) を提案する。
本手法は,高速な移動を含む映像モーションキャプチャ結果を物理的に洗練するためのプラグイン・アンド・プレイモジュールとして設計されている。
論文 参考訳(メタデータ) (2024-12-23T08:26:00Z) - Mojito: Motion Trajectory and Intensity Control for Video Generation [79.85687620761186]
本稿では,テキスト・ビデオ生成のための運動軌跡と強度制御の両方を組み込んだ拡散モデルであるMojitoを紹介する。
実験は, 高精度な軌道制御と強度制御を高い計算効率で実現する上で, モジトの有効性を実証する。
論文 参考訳(メタデータ) (2024-12-12T05:26:43Z) - MotionFlow: Attention-Driven Motion Transfer in Video Diffusion Models [3.2311303453753033]
動画拡散モデルにおける動き伝達のための新しいフレームワークであるMotionFlowを紹介する。
本手法は,空間的・時間的ダイナミクスを正確に把握し,操作するために,クロスアテンションマップを利用する。
実験の結果,MotionFlowは劇的なシーン変化であっても,忠実度と汎用性の両方で既存モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-12-06T18:59:12Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Motion Modes: What Could Happen Next? [45.24111039863531]
現在のビデオ生成モデルは、しばしばカメラの動きや他のシーンの変化とオブジェクトの動きを絡ませる。
我々は、事前訓練された画像間ジェネレータの潜伏分布を探索する、トレーニング不要なアプローチであるMotion Modesを紹介する。
我々は、物体とカメラの動きを歪ませるように設計されたエネルギー関数で導かれたフロージェネレータを用いてこれを実現する。
論文 参考訳(メタデータ) (2024-11-29T01:51:08Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - Motion-I2V: Consistent and Controllable Image-to-Video Generation with
Explicit Motion Modeling [62.19142543520805]
Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。
I2Vを2段階に分解し、明示的なモーションモデリングを行う。
Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
論文 参考訳(メタデータ) (2024-01-29T09:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。