論文の概要: Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think
- arxiv url: http://arxiv.org/abs/2503.00948v1
- Date: Sun, 02 Mar 2025 16:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:46.036858
- Title: Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think
- Title(参考訳): 画像と映像の生成モデルの外挿とデカップリング:モーションモデリングは想像以上に簡単
- Authors: Jie Tian, Xiaoye Qu, Zhenyi Lu, Wei Wei, Sichen Liu, Yu Cheng,
- Abstract要約: Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。
このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.308538128761985
- License:
- Abstract: Image-to-Video (I2V) generation aims to synthesize a video clip according to a given image and condition (e.g., text). The key challenge of this task lies in simultaneously generating natural motions while preserving the original appearance of the images. However, current I2V diffusion models (I2V-DMs) often produce videos with limited motion degrees or exhibit uncontrollable motion that conflicts with the textual condition. To address these limitations, we propose a novel Extrapolating and Decoupling framework, which introduces model merging techniques to the I2V domain for the first time. Specifically, our framework consists of three separate stages: (1) Starting with a base I2V-DM, we explicitly inject the textual condition into the temporal module using a lightweight, learnable adapter and fine-tune the integrated model to improve motion controllability. (2) We introduce a training-free extrapolation strategy to amplify the dynamic range of the motion, effectively reversing the fine-tuning process to enhance the motion degree significantly. (3) With the above two-stage models excelling in motion controllability and degree, we decouple the relevant parameters associated with each type of motion ability and inject them into the base I2V-DM. Since the I2V-DM handles different levels of motion controllability and dynamics at various denoising time steps, we adjust the motion-aware parameters accordingly over time. Extensive qualitative and quantitative experiments have been conducted to demonstrate the superiority of our framework over existing methods.
- Abstract(参考訳): Image-to-Video(I2V)生成は、所定の画像と条件(例えばテキスト)に応じてビデオクリップを合成することを目的としている。
このタスクの重要な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
しかし、現在のI2V拡散モデル(I2V-DM)は、しばしば限られた動きの度合いの動画を生成するか、テキストの状態と矛盾する制御不能な動きを示す。
これらの制約に対処するため、我々は、初めてI2Vドメインにモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
具体的には、(1)ベースI2V-DMから、軽量で学習可能なアダプタを用いてテキスト条件を時間モジュールに明示的に注入し、統合モデルを微調整し、動作制御性を向上させる。
2) 運動のダイナミックレンジを増幅するトレーニングフリーな外挿戦略を導入し, 微調整過程を効果的に逆転させて運動度を著しく向上させる。
(3) 以上の2段階モデルでは, 動作制御性, 度合いに優れており, それぞれの動作能力に関連するパラメータを分離し, ベースI2V-DMに注入する。
I2V-DMは、様々なデノナイジング時間ステップで異なるレベルの動作制御性とダイナミクスを処理するため、時間とともに動き認識パラメータを調整します。
従来の手法よりもフレームワークが優れていることを示すために, 大規模定性的, 定量的な実験が実施されている。
関連論文リスト
- MotionMatcher: Motion Customization of Text-to-Video Diffusion Models via Motion Feature Matching [27.28898943916193]
テキスト・ツー・ビデオ(T2V)拡散モデルは、入力されたテキスト・プロンプトからリアルな動画を合成する有望な能力を持つ。
本研究では,モーションガイダンスとして参照映像が提供される動作カスタマイズ問題に取り組む。
我々は,事前学習したT2V拡散モデルを特徴レベルで微調整するモーションカスタマイズフレームワークであるMotionMatcherを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:12:51Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - MotionStone: Decoupled Motion Intensity Modulation with Diffusion Transformer for Image-to-Video Generation [55.238542326124545]
静止画像に画像間(I2V)生成を条件付け、動き強度を付加的な制御信号として最近強化した。
これらの動き認識モデルは多様な動きパターンを生成するために魅力的だが、そのようなモデルを野生の大規模ビデオでトレーニングするための信頼性の高い動き推定器は存在しない。
本稿では,映像中の物体とカメラのデカップリング運動強度を計測できる新しい動き推定器の課題に対処する。
論文 参考訳(メタデータ) (2024-12-08T08:12:37Z) - Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Motion-I2V: Consistent and Controllable Image-to-Video Generation with
Explicit Motion Modeling [62.19142543520805]
Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。
I2Vを2段階に分解し、明示的なモーションモデリングを行う。
Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
論文 参考訳(メタデータ) (2024-01-29T09:06:43Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Decouple Content and Motion for Conditional Image-to-Video Generation [6.634105805557556]
条件付きイメージ・トゥ・ビデオ(cI2V)生成は、条件、すなわち1つの画像とテキストから始まり、信じられる新しいビデオを作成することである。
従来のcI2V生成法は、従来のRGBピクセル空間において、動きの一貫性と視覚的連続性のモデリングに制限がある。
本稿では,対象のRGB画素を空間的内容と時間的動きの2つの異なる成分に分解する手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。