論文の概要: Controllable Longer Image Animation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.17306v1
- Date: Mon, 27 May 2024 16:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:33:59.939859
- Title: Controllable Longer Image Animation with Diffusion Models
- Title(参考訳): 拡散モデルによる制御可能なより長い画像アニメーション
- Authors: Qiang Wang, Minghua Liu, Junjun Hu, Fan Jiang, Mu Xu,
- Abstract要約: 動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
- 参考スコア(独自算出の注目度): 12.565739255499594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic animated videos from static images is an important area of research in computer vision. Methods based on physical simulation and motion prediction have achieved notable advances, but they are often limited to specific object textures and motion trajectories, failing to exhibit highly complex environments and physical dynamics. In this paper, we introduce an open-domain controllable image animation method using motion priors with video diffusion models. Our method achieves precise control over the direction and speed of motion in the movable region by extracting the motion field information from videos and learning moving trajectories and strengths. Current pretrained video generation models are typically limited to producing very short videos, typically less than 30 frames. In contrast, we propose an efficient long-duration video generation method based on noise reschedule specifically tailored for image animation tasks, facilitating the creation of videos over 100 frames in length while maintaining consistency in content scenery and motion coordination. Specifically, we decompose the denoise process into two distinct phases: the shaping of scene contours and the refining of motion details. Then we reschedule the noise to control the generated frame sequences maintaining long-distance noise correlation. We conducted extensive experiments with 10 baselines, encompassing both commercial tools and academic methodologies, which demonstrate the superiority of our method. Our project page: \url{https://wangqiang9.github.io/Controllable.github.io/}
- Abstract(参考訳): 静的画像からリアルなアニメーションビデオを生成することは、コンピュータビジョンにおける重要な研究領域である。
物理シミュレーションと運動予測に基づく手法は顕著な進歩を遂げているが、それらはしばしば特定の物体のテクスチャや運動軌道に限られており、非常に複雑な環境や物理力学を示せなかった。
本稿では,映像拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は,動画から運動場情報を抽出し,移動軌跡や強みを学習することにより,移動領域の運動方向と速度を正確に制御する。
現在の事前訓練されたビデオ生成モデルは、通常30フレーム未満の非常に短いビデオを生成することに限定される。
対照的に、画像アニメーションタスクに特化して調整されたノイズ再構成に基づく効率的な長周期ビデオ生成手法を提案し、コンテンツシーンと動き調整の整合性を維持しつつ、100フレーム以上のビデオの作成を容易にする。
具体的には、デノイズ過程をシーン輪郭の形状と動きの詳細の精細化の2つの相に分解する。
次に、長距離雑音相関を保ちながら生成したフレーム列を制御するために、ノイズを再スケジュールする。
提案手法の優位性を示すため,商業ツールと学術手法の両方を含む10の基準線を用いた広範囲な実験を行った。
プロジェクトページ: \url{https://wangqiang9.github.io/Controllable.github.io/}
関連論文リスト
- AnimateAnything: Consistent and Controllable Animation for Video Generation [24.576022028967195]
本稿では,AnimateAnythingという統合制御可能なビデオ生成手法を提案する。
様々な条件にまたがる正確で一貫したビデオ操作を容易にする。
実験により,本手法は最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-16T16:36:49Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - AnimateAnything: Fine-Grained Open Domain Image Animation with Motion
Guidance [13.416296247896042]
本稿では,映像拡散モデルに先立って動きを利用するオープンドメイン画像アニメーション手法を提案する。
本手法では,移動領域の正確な制御と移動速度を実現するため,目標となる運動領域の誘導と運動強度の誘導を導入する。
オープンドメインデータセットを用いた厳密な実験により,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-21T03:47:54Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Learning Fine-Grained Motion Embedding for Landscape Animation [140.57889994591494]
ファイングラインド・モーション・埋め込みを学習し,高品質でリアルな映像を生成するモデルFGLAを提案する。
多様なタイムラプスビデオのトレーニングと評価を行うため、Diverseのシーンを用いた最大の高解像度タイムラプスビデオデータセットを構築した。
提案手法は,LIPISが19%,FVDが5.6%向上した。
論文 参考訳(メタデータ) (2021-09-06T02:47:11Z) - Animating Pictures with Eulerian Motion Fields [90.30598913855216]
静止画をリアルなアニメーションループ映像に変換する完全自動手法を示す。
流れ水や吹く煙など,連続流体運動の場面を対象とする。
本稿では,前向きと後向きの両方に特徴を流し,その結果をブレンドする新しいビデオループ手法を提案する。
論文 参考訳(メタデータ) (2020-11-30T18:59:06Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。