Fugu-MT 論文翻訳(概要): Learning Motion Refinement for Unsupervised Face Animation

論文の概要: Learning Motion Refinement for Unsupervised Face Animation

arxiv url: http://arxiv.org/abs/2310.13912v1
Date: Sat, 21 Oct 2023 05:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 04:40:28.999929
Title: Learning Motion Refinement for Unsupervised Face Animation
Title（参考訳）: 教師なし顔アニメーションのための学習型モーションリファインメント
Authors: Jiale Tao, Shuhang Gu, Wen Li, Lixin Duan
Abstract要約: 教師なしの顔アニメーションは、原画像の外観に基づいて人間の顔映像を生成し、運転映像の動作を模倣することを目的としている。既存の手法では、通常、先行した動きモデル(例えば、局所的なアフィン運動モデルや局所的な薄板・スプライン運動モデル)を採用する。本研究では、粗い動きと細い動きを同時に学習するための、教師なしの顔アニメーション手法を設計する。
参考スコア（独自算出の注目度）: 45.807582064277305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised face animation aims to generate a human face video based on the appearance of a source image, mimicking the motion from a driving video. Existing methods typically adopted a prior-based motion model (e.g., the local affine motion model or the local thin-plate-spline motion model). While it is able to capture the coarse facial motion, artifacts can often be observed around the tiny motion in local areas (e.g., lips and eyes), due to the limited ability of these methods to model the finer facial motions. In this work, we design a new unsupervised face animation approach to learn simultaneously the coarse and finer motions. In particular, while exploiting the local affine motion model to learn the global coarse facial motion, we design a novel motion refinement module to compensate for the local affine motion model for modeling finer face motions in local areas. The motion refinement is learned from the dense correlation between the source and driving images. Specifically, we first construct a structure correlation volume based on the keypoint features of the source and driving images. Then, we train a model to generate the tiny facial motions iteratively from low to high resolution. The learned motion refinements are combined with the coarse motion to generate the new image. Extensive experiments on widely used benchmarks demonstrate that our method achieves the best results among state-of-the-art baselines.
Abstract（参考訳）: 教師なし顔アニメーションは、運転映像からの動きを模倣して、ソース画像の出現に基づいて人間の顔ビデオを生成することを目的としている。既存の手法では、通常、事前ベースの運動モデル(例えば、局所アフィン運動モデルや局所薄板-スプライン運動モデル)が採用されている。粗い顔の動きを捉えることができるが、これらの方法がより細かい顔の動きをモデル化する能力に制限があるため、局所的な(唇や目など)小さな動きの周りでアーチファクトが観察されることがしばしばある。本研究では,粗い動きと細かい動きを同時に学習する新しい教師なし顔アニメーション手法を考案する。特に,局所的なアフィン運動モデルを利用して大域的な粗い顔の動きを学習する一方で,局所的なアフィン運動モデルを補うための新しい動き改善モジュールを設計する。音源と駆動画像との密接な相関から、動きの精密化を学ぶ。具体的には,まず,音源と駆動画像のキーポイント特徴に基づく構造相関ボリュームを構築する。そして、低解像度から高解像度の小さな顔の動きを反復的に生成するモデルを訓練する。学習された動き補正と粗い動きを組み合わせることで、新しい画像を生成する。広範に使用されているベンチマーク実験により,本手法は最先端のベースラインで最高の結果が得られることを示した。

関連論文リスト

PRIMAL: Physically Reactive and Interactive Motor Model for Avatar Learning [38.004463823796286]
2段階のパラダイムで学習した自己回帰拡散モデルであるPRIMALを提案する。事前学習段階において、モデルは多数のサブ秒動作セグメントから運動力学を学習する。適応段階では、制御ネットのような適応器を用いて、セマンティックアクション生成と空間的目標到達のためのモータ制御を微調整する。
論文参考訳（メタデータ） (2025-03-21T21:27:57Z)
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。 VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文参考訳（メタデータ） (2025-02-04T17:07:10Z)
Deblur-Avatar: Animatable Avatars from Motion-Blurred Monocular Videos [64.10307207290039]
本研究では,モーションブルモノクロビデオ入力から高忠実でアニマタブルな3次元アバターをモデリングするための新しいフレームワークを提案する。被曝時の人体運動軌跡を明示的にモデル化することにより、鋭く高品質な人体アバターを再構築するために、軌跡と3Dガウスアンを共同で最適化する。
論文参考訳（メタデータ） (2025-01-23T02:31:57Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文参考訳（メタデータ） (2024-08-08T17:59:38Z)
Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文参考訳（メタデータ） (2024-06-10T17:47:14Z)
Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文参考訳（メタデータ） (2024-05-27T16:08:00Z)
SurMo: Surface-based 4D Motion Modeling for Dynamic Human Rendering [45.51684124904457]
統合されたフレームワークにおける時間的ダイナミクスと人間の外見をモデル化する新しい4DモーションパラダイムであるSurMoを提案する。効率的なコンパクトな表面ベース三面体で4次元の人間の動きをモデル化する表面ベースの動き符号化。身体運動学習を促進するために設計された身体運動復号法。表面条件の効率的なデコードにより、モーショントリプレーンを画像にレンダリングする4次元の外観モデリング。
論文参考訳（メタデータ） (2024-04-01T16:34:27Z)
X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention [18.211762995744337]
本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。外観参照として1つのポートレートが与えられた場合、駆動ビデオから得られる動きをアニメーション化し、非常にダイナミックかつ微妙な表情をキャプチャすることを目的としている。実験により,X-ポートレートの多彩な顔画像および表現力のある運転シーケンスに対する普遍的効果が示された。
論文参考訳（メタデータ） (2024-03-23T20:30:28Z)
MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文参考訳（メタデータ） (2023-12-08T16:31:04Z)
Sparse to Dense Motion Transfer for Face Image Animation [34.16015389505612]
元の顔画像とスパースな顔のランドマークのシーケンスが与えられた場合、私たちのゴールはランドマークの動きを模倣した顔のビデオを作成することです。本研究では,スパースランドマークから顔画像への移動を効果的かつ効果的に行う方法を開発した。
論文参考訳（メタデータ） (2021-09-01T16:23:57Z)
Real-time Deep Dynamic Characters [95.5592405831368]
本研究では,高度にリアルな形状,動き,ダイナミックな外観を示す3次元人物モデルを提案する。我々は,新しいグラフ畳み込みネットワークアーキテクチャを用いて,身体と衣服の運動依存的変形学習を実現する。本モデルでは, 運動依存的表面変形, 物理的に妥当な動的衣服変形, および映像現実的表面テクスチャを, 従来よりも細部まで高レベルに生成することを示す。
論文参考訳（メタデータ） (2021-05-04T23:28:55Z)
Self-supervised Motion Learning from Static Images [36.85209332144106]
Motion from Static Images (MoSI) はモーション情報をエンコードすることを学ぶ。 MoSIは、下流のデータセットを微調整することなく、大きな動きを持つ領域を発見することができる。下流のデータセットを微調整することなく、MoSIが大きな動きを持つ領域を発見できることを実証します。
論文参考訳（メタデータ） (2021-04-01T03:55:50Z)
First Order Motion Model for Image Animation [90.712718329677]
画像アニメーションは、駆動ビデオの動きに応じて、ソース画像内のオブジェクトがアニメーションされるように、ビデオシーケンスを生成する。我々のフレームワークは、アニメーションする特定のオブジェクトに関するアノテーションや事前情報を使わずに、この問題に対処します。
論文参考訳（メタデータ） (2020-02-29T07:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。