論文の概要: Latent Image Animator: Learning to Animate Images via Latent Space
Navigation
- arxiv url: http://arxiv.org/abs/2203.09043v1
- Date: Thu, 17 Mar 2022 02:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:40:50.656852
- Title: Latent Image Animator: Learning to Animate Images via Latent Space
Navigation
- Title(参考訳): 潜在画像アニメーター:潜在空間ナビゲーションによる画像のアニメーション化への学習
- Authors: Yaohui Wang, Di Yang, Francois Bremond, Antitza Dantcheva
- Abstract要約: 本稿では,構造表現の必要性を回避する自己教師型オートエンコーダであるLatent Image Animator(LIA)を紹介する。
LIAは、潜時空間における線形ナビゲーションにより画像をアニメーションするために合理化され、特に、潜時空間における符号の線形変位によって生成されたビデオ内の動きが構成される。
- 参考スコア(独自算出の注目度): 11.286071873122658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the remarkable progress of deep generative models, animating images
has become increasingly efficient, whereas associated results have become
increasingly realistic. Current animation-approaches commonly exploit structure
representation extracted from driving videos. Such structure representation is
instrumental in transferring motion from driving videos to still images.
However, such approaches fail in case the source image and driving video
encompass large appearance variation. Moreover, the extraction of structure
information requires additional modules that endow the animation-model with
increased complexity. Deviating from such models, we here introduce the Latent
Image Animator (LIA), a self-supervised autoencoder that evades need for
structure representation. LIA is streamlined to animate images by linear
navigation in the latent space. Specifically, motion in generated video is
constructed by linear displacement of codes in the latent space. Towards this,
we learn a set of orthogonal motion directions simultaneously, and use their
linear combination, in order to represent any displacement in the latent space.
Extensive quantitative and qualitative analysis suggests that our model
systematically and significantly outperforms state-of-art methods on VoxCeleb,
Taichi and TED-talk datasets w.r.t. generated quality.
- Abstract(参考訳): 深部生成モデルの顕著な進歩により、画像のアニメーション化は効率が増し、関連する結果はますます現実的になっている。
現在のアニメーションアパッチは、駆動ビデオから抽出された構造表現を一般的に利用している。
このような構造表現は、運転映像から静止画像への動きの伝達に有効である。
しかし、ソース画像と駆動ビデオが大きな外観変化を含む場合、そのようなアプローチは失敗する。
さらに,構造情報の抽出には,複雑なアニメーションモデルを実現するモジュールの追加が必要である。
このようなモデルから逸脱して、構造表現の必要性を回避する自己教師型オートエンコーダであるLatent Image Animator (LIA)を導入する。
LIAは、潜伏空間における線形ナビゲーションによって画像をアニメーションするために合理化される。
具体的には、生成されたビデオ内の動きは、潜時空間の符号の線形変位によって構成される。
これに向けて、直交運動方向の集合を同時に学習し、その線形結合を用いて、潜在空間における任意の変位を表す。
我々のモデルは,VoxCeleb,Taichi,TED-talkのデータセットから生成した品質を体系的に,かつ著しく上回ることを示す。
関連論文リスト
- Transforming Static Images Using Generative Models for Video Salient Object Detection [15.701293552584863]
本研究では,画像成分間の文脈的関係を理解しつつ,静止画像の現実的な変換を画像間拡散モデルで生成できることを示す。
この能力により、モデルは、シーン要素の独立な動きを反映しながらセマンティックな整合性を保ちながら、可塑性光フローを生成することができる。
我々のアプローチは、すべての公開ベンチマークデータセットで最先端のパフォーマンスを実現し、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-11-21T09:41:33Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - AniClipart: Clipart Animation with Text-to-Video Priors [28.76809141136148]
AniClipartは、静的な画像をテキストからビデオへの事前案内による高品質なモーションシーケンスに変換するシステムである。
実験結果から,提案したAniClipartは既存の画像・映像生成モデルより一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-18T17:24:28Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Autoencoding Video Latents for Adversarial Video Generation [0.0]
AVLAEは2ストリームの遅延オートエンコーダであり、ビデオ配信は敵の訓練によって学習される。
提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことを学習できることを実証する。
論文 参考訳(メタデータ) (2022-01-18T11:42:14Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。