論文の概要: Sparse to Dense Motion Transfer for Face Image Animation
- arxiv url: http://arxiv.org/abs/2109.00471v1
- Date: Wed, 1 Sep 2021 16:23:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 14:18:08.825143
- Title: Sparse to Dense Motion Transfer for Face Image Animation
- Title(参考訳): 顔画像アニメーションのための疎密な動き伝達
- Authors: Ruiqi Zhao, Tianyi Wu and Guodong Guo
- Abstract要約: 元の顔画像とスパースな顔のランドマークのシーケンスが与えられた場合、私たちのゴールはランドマークの動きを模倣した顔のビデオを作成することです。
本研究では,スパースランドマークから顔画像への移動を効果的かつ効果的に行う方法を開発した。
- 参考スコア(独自算出の注目度): 34.16015389505612
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Face image animation from a single image has achieved remarkable progress.
However, it remains challenging when only sparse landmarks are available as the
driving signal. Given a source face image and a sequence of sparse face
landmarks, our goal is to generate a video of the face imitating the motion of
landmarks. We develop an efficient and effective method for motion transfer
from sparse landmarks to the face image. We then combine global and local
motion estimation in a unified model to faithfully transfer the motion. The
model can learn to segment the moving foreground from the background and
generate not only global motion, such as rotation and translation of the face,
but also subtle local motion such as the gaze change. We further improve face
landmark detection on videos. With temporally better aligned landmark sequences
for training, our method can generate temporally coherent videos with higher
visual quality. Experiments suggest we achieve results comparable to the
state-of-the-art image driven method on the same identity testing and better
results on cross identity testing.
- Abstract(参考訳): 単一画像からの顔画像アニメーションは目覚ましい進歩を遂げた。
しかし、運転信号としてスパースランドマークのみを利用できる場合、依然として困難である。
ソースの顔画像とスパースな顔ランドマークのシーケンスを考えると、私たちの目標は、ランドマークの動きを模倣した顔のビデオを生成することです。
スパースランドマークから顔画像への移動を効率よく効果的に行う方法を開発した。
そして、大域的および局所的な運動推定を統一モデルで組み合わせ、忠実に動きを伝達する。
モデルは、移動前景を背景から分割し、回転や顔の翻訳といった大域的な動きだけでなく、視線の変化のような微妙な局所的な動きも生成することができる。
ビデオにおける顔のランドマーク検出をさらに改善する。
トレーニング用ランドマークシーケンスを時間的によく整列させることで,映像品質の高い時間的コヒーレント映像を生成できる。
実験では、同一のアイデンティティテストにおいて最先端の画像駆動メソッドに匹敵する結果と、より優れたクロスアイデンティティテストの結果が得られたことを示唆する。
関連論文リスト
- G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。
我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。
顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文 参考訳(メタデータ) (2024-08-23T13:13:24Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - Learning Motion Refinement for Unsupervised Face Animation [45.807582064277305]
教師なしの顔アニメーションは、原画像の外観に基づいて人間の顔映像を生成し、運転映像の動作を模倣することを目的としている。
既存の手法では、通常、先行した動きモデル(例えば、局所的なアフィン運動モデルや局所的な薄板・スプライン運動モデル)を採用する。
本研究では、粗い動きと細い動きを同時に学習するための、教師なしの顔アニメーション手法を設計する。
論文 参考訳(メタデータ) (2023-10-21T05:52:25Z) - Human MotionFormer: Transferring Human Motions with Vision Transformers [73.48118882676276]
人間の動き伝達は、運動合成のためにターゲットの動的人物からソースの静的人物に動きを伝達することを目的としている。
本稿では,世界的および地域的認識を活用して,大規模かつ微妙な動きマッチングを捉える階層型ViTフレームワークであるHuman MotionFormerを提案する。
我々のHuman MotionFormerは、定性的かつ定量的に新しい最先端のパフォーマンスをセットしている。
論文 参考訳(メタデータ) (2023-02-22T11:42:44Z) - Motion Transformer for Unsupervised Image Animation [37.35527776043379]
画像アニメーションは、駆動ビデオから学んだ動きを用いて、ソースイメージをアニメーションすることを目的としている。
現在の最先端の手法は、通常、運動情報を予測するために畳み込みニューラルネットワーク(CNN)を使用する。
本稿では,視覚変換器をベースとした動き推定器構築の試みである動き変換器を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:04:58Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - Animating Pictures with Eulerian Motion Fields [90.30598913855216]
静止画をリアルなアニメーションループ映像に変換する完全自動手法を示す。
流れ水や吹く煙など,連続流体運動の場面を対象とする。
本稿では,前向きと後向きの両方に特徴を流し,その結果をブレンドする新しいビデオループ手法を提案する。
論文 参考訳(メタデータ) (2020-11-30T18:59:06Z) - First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。
我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文 参考訳(メタデータ) (2020-02-29T07:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。