論文の概要: MIMAFace: Face Animation via Motion-Identity Modulated Appearance Feature Learning
- arxiv url: http://arxiv.org/abs/2409.15179v1
- Date: Mon, 23 Sep 2024 16:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:13:28.227467
- Title: MIMAFace: Face Animation via Motion-Identity Modulated Appearance Feature Learning
- Title(参考訳): MIMAFace:Motion-Identity Modulated Outearance Feature Learningによる顔アニメーション
- Authors: Yue Han, Junwei Zhu, Yuxiang Feng, Xiaozhong Ji, Keke He, Xiangtai Li, zhucun xue, Yong Liu,
- Abstract要約: 動作レベルと同一性レベルの両方でCLIP特徴を変調する動き入出力学習モジュール(MIA)を導入する。
また、クリップ間の時間関係をモデル化するICA(Inter-Clip Affinity Learning Module)を設計する。
提案手法は, 表情と視線を正確に制御し, 忠実なアイデンティティを保存し, クリック内時間的整合性を維持するアニメーション映像を生成する。
- 参考スコア(独自算出の注目度): 30.61146302275139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current diffusion-based face animation methods generally adopt a ReferenceNet (a copy of U-Net) and a large amount of curated self-acquired data to learn appearance features, as robust appearance features are vital for ensuring temporal stability. However, when trained on public datasets, the results often exhibit a noticeable performance gap in image quality and temporal consistency. To address this issue, we meticulously examine the essential appearance features in the facial animation tasks, which include motion-agnostic (e.g., clothing, background) and motion-related (e.g., facial details) texture components, along with high-level discriminative identity features. Drawing from this analysis, we introduce a Motion-Identity Modulated Appearance Learning Module (MIA) that modulates CLIP features at both motion and identity levels. Additionally, to tackle the semantic/ color discontinuities between clips, we design an Inter-clip Affinity Learning Module (ICA) to model temporal relationships across clips. Our method achieves precise facial motion control (i.e., expressions and gaze), faithful identity preservation, and generates animation videos that maintain both intra/inter-clip temporal consistency. Moreover, it easily adapts to various modalities of driving sources. Extensive experiments demonstrate the superiority of our method.
- Abstract(参考訳): 現在の拡散型顔アニメーション法は一般に、時間的安定性を確保するために頑健な外観特徴が不可欠であるため、参照ネット(U-Netのコピー)と大量の自己取得データを用いて外観特徴を学習する。
しかし、公開データセットでトレーニングすると、画像の品質と時間的一貫性に顕著なパフォーマンスギャップが生じることがしばしばある。
この問題に対処するために,動作非依存(衣服,背景など)や動作関連(顔の細部など)のテクスチャコンポーネントや,高レベルの識別的アイデンティティ機能など,顔のアニメーションタスクに欠かせない特徴を慎重に検討する。
この分析から,CLIP特徴を動作レベルと同一性レベルの両方で変調する動き入出力学習モジュール(MIA)を導入する。
さらに、クリップ間の意味/色の不連続に対処するため、クリップ間の時間的関係をモデル化するICA(Inter-Clip Affinity Learning Module)を設計する。
提案手法は, 表情と視線を正確に制御し, 忠実なアイデンティティを保存し, クリック内時間的整合性を維持するアニメーション映像を生成する。
さらに、駆動源の様々なモダリティに容易に適応する。
大規模な実験により,本手法の優位性を実証した。
関連論文リスト
- VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - Attention-based Shape and Gait Representations Learning for Video-based
Cloth-Changing Person Re-Identification [1.6385815610837167]
我々は「注意に基づく形状と歩行表現学習」(ASGL)を提案することにより、映像ベースの衣服交換者Re-ID(VCCRe-ID)の実践的問題に対処する。
当社のASGLフレームワークは,衣服不変歩行手がかりを学習することにより,衣服変動下でのRe-ID性能を向上させる。
提案するST-GATはマルチヘッドアテンションモジュールから構成されており,歩行埋め込みの堅牢性を高めることができる。
論文 参考訳(メタデータ) (2024-02-06T05:11:46Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - MagicAnimate: Temporally Consistent Human Image Animation using
Diffusion Model [74.84435399451573]
本稿では、特定の動きシーケンスに従って、特定の参照アイデンティティのビデオを生成することを目的とした、人間の画像アニメーションタスクについて検討する。
既存のアニメーションは、通常、フレームウォーピング技術を用いて参照画像を目標運動に向けてアニメーションする。
MagicAnimateは,時間的一貫性の向上,参照画像の忠実な保存,アニメーションの忠実性向上を目的とした,拡散に基づくフレームワークである。
論文 参考訳(メタデータ) (2023-11-27T18:32:31Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。