Fugu-MT 論文翻訳(概要): AnimateAnything: Consistent and Controllable Animation for Video Generation

論文の概要: AnimateAnything: Consistent and Controllable Animation for Video Generation

arxiv url: http://arxiv.org/abs/2411.10836v1
Date: Sat, 16 Nov 2024 16:36:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.380066
Title: AnimateAnything: Consistent and Controllable Animation for Video Generation
Title（参考訳）: AnimateAnything:ビデオ生成のための一貫性と制御可能なアニメーション
Authors: Guojun Lei, Chi Wang, Hong Li, Rong Zhang, Yikai Wang, Weiwei Xu,
Abstract要約: 本稿では,AnimateAnythingという統合制御可能なビデオ生成手法を提案する。様々な条件にまたがる正確で一貫したビデオ操作を容易にする。実験により,本手法は最先端手法よりも優れていることが示された。
参考スコア（独自算出の注目度）: 24.576022028967195
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present a unified controllable video generation approach AnimateAnything that facilitates precise and consistent video manipulation across various conditions, including camera trajectories, text prompts, and user motion annotations. Specifically, we carefully design a multi-scale control feature fusion network to construct a common motion representation for different conditions. It explicitly converts all control information into frame-by-frame optical flows. Then we incorporate the optical flows as motion priors to guide final video generation. In addition, to reduce the flickering issues caused by large-scale motion, we propose a frequency-based stabilization module. It can enhance temporal coherence by ensuring the video's frequency domain consistency. Experiments demonstrate that our method outperforms the state-of-the-art approaches. For more details and videos, please refer to the webpage: https://yu-shaonian.github.io/Animate_Anything/.
Abstract（参考訳）: 本稿では,カメラトラジェクトリ,テキストプロンプト,ユーザ動作アノテーションなど,さまざまな条件における正確な一貫したビデオ操作を容易にする,一貫した制御可能なビデオ生成アプローチAnimateAnythingを提案する。具体的には,異なる条件下での共通動作表現を構築するために,マルチスケール制御機能融合ネットワークを慎重に設計する。すべての制御情報をフレーム単位の光学フローに明示的に変換する。そして、最終映像生成を導くために、光学フローを動作先として組み込む。また,大規模な動きによるフリッカリング問題を低減するため,周波数ベースの安定化モジュールを提案する。ビデオの周波数領域の整合性を確保することで、時間的コヒーレンスを高めることができる。実験により,本手法は最先端手法よりも優れていることが示された。詳細とビデオについては、Webページを参照してください。

関連論文リスト

Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文参考訳（メタデータ） (2024-05-30T16:22:22Z)
Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文参考訳（メタデータ） (2024-05-27T16:08:00Z)
AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文参考訳（メタデータ） (2023-12-06T13:39:35Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。 MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文参考訳（メタデータ） (2023-11-19T13:36:03Z)
ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。 NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文参考訳（メタデータ） (2023-05-22T14:48:53Z)
Image Animation with Keypoint Mask [0.0]
モーショントランスファー(Motion Transfer)は、特定の駆動ビデオからの動作に応じて、単一のソース画像の将来のビデオフレームを合成するタスクである。本研究では,キーポイントのヒートマップから,明示的な動作表現を伴わずに構造を抽出する。そして、画像と映像から構造を抽出し、深部ジェネレータにより映像に応じて映像をワープする。
論文参考訳（メタデータ） (2021-12-20T11:35:06Z)
Animating Pictures with Eulerian Motion Fields [90.30598913855216]
静止画をリアルなアニメーションループ映像に変換する完全自動手法を示す。流れ水や吹く煙など,連続流体運動の場面を対象とする。本稿では,前向きと後向きの両方に特徴を流し,その結果をブレンドする新しいビデオループ手法を提案する。
論文参考訳（メタデータ） (2020-11-30T18:59:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。