論文の概要: AniFaceDiff: Animating Stylized Avatars via Parametric Conditioned Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.13272v2
- Date: Mon, 02 Dec 2024 12:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:22:53.665249
- Title: AniFaceDiff: Animating Stylized Avatars via Parametric Conditioned Diffusion Models
- Title(参考訳): AniFaceDiff:パラメトリック条件付き拡散モデルによるスティル化アバターのアニメーション
- Authors: Ken Chen, Sachith Seneviratne, Wei Wang, Dongting Hu, Sanjay Saha, Md. Tarek Hasan, Sanka Rasnayaka, Tamasha Malepathirana, Mingming Gong, Saman Halgamuge,
- Abstract要約: 本稿では,スタイリングされたアバターをアニメーション化するための新しい条件付きモジュールを組み込んだ,AniFaceDiffと呼ばれる安定拡散に基づく新しい手法を提案する。
提案手法は,入力画像の一貫性を維持しながら,対象映像からのポーズと表現を効果的に保存する。
この研究は、ポジティブなアプリケーションのための仮想スタイリングアニメーションの品質を高めることを目的としている。
- 参考スコア(独自算出の注目度): 33.39336530229545
- License:
- Abstract: Animating stylized avatars with dynamic poses and expressions has attracted increasing attention for its broad range of applications. Previous research has made significant progress by training controllable generative models to synthesize animations based on reference characteristics, pose, and expression conditions. However, the mechanisms used in these methods to control pose and expression often inadvertently introduce unintended features from the target motion, while also causing a loss of expression-related details, particularly when applied to stylized animation. This paper proposes a new method based on Stable Diffusion, called AniFaceDiff, incorporating a new conditioning module for animating stylized avatars. First, we propose a refined spatial conditioning approach by Facial Alignment to prevent the inclusion of identity characteristics from the target motion. Then, we introduce an Expression Adapter that incorporates additional cross-attention layers to address the potential loss of expression-related information. Our approach effectively preserves pose and expression from the target video while maintaining input image consistency. Extensive experiments demonstrate that our method achieves state-of-the-art results, showcasing superior image quality, preservation of reference features, and expression accuracy, particularly for out-of-domain animation across diverse styles, highlighting its versatility and strong generalization capabilities. This work aims to enhance the quality of virtual stylized animation for positive applications. To promote responsible use in virtual environments, we contribute to the advancement of detection for generative content by evaluating state-of-the-art detectors, highlighting potential areas for improvement, and suggesting solutions.
- Abstract(参考訳): 動的ポーズや表現によるスタイル化されたアバターのアニメーション化は、幅広い用途に注目が集まっている。
従来の研究では、参照特性、ポーズ、表現条件に基づいてアニメーションを合成するために制御可能な生成モデルを訓練することで、大きな進歩を遂げてきた。
しかし、これらの手法において、ポーズや表現を制御するためのメカニズムは、しばしば意図しない動作から意図しない特徴を意図せず導入する一方で、特にスタイリングされたアニメーションに適用した場合に、表現に関する詳細が失われる。
本稿では,スタイリングされたアバターをアニメーション化するための新しい条件付きモジュールを組み込んだ,AniFaceDiffと呼ばれる安定拡散に基づく新しい手法を提案する。
まず,顔面アライメントによる空間条件調整手法を提案する。
次に,表現関連情報の潜在的な損失に対応するために,追加のアテンション層を組み込んだExpression Adapterを導入する。
提案手法は,入力画像の一貫性を維持しながら,対象映像からのポーズと表現を効果的に保存する。
画像品質の向上,参照特徴の保存,表現精度の向上,特にドメイン外アニメーションを多種多様なスタイルで実現し,その汎用性と強力な一般化能力を強調した。
この研究は、ポジティブなアプリケーションのための仮想スタイリングアニメーションの品質を高めることを目的としている。
仮想環境における責任ある利用を促進するため、我々は、最先端の検出器を評価し、改善の可能性を強調し、解決策を提案することにより、生成コンテンツの検出の進歩に寄与する。
関連論文リスト
- Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance [30.225654002561512]
Animate Anyone 2を紹介する。
本研究では,文字と環境の関係をより効果的に特徴づける形状に依存しないマスク戦略を提案する。
また、モデルがより多様な動きパターンを扱えるように、ポーズ変調戦略を導入する。
論文 参考訳(メタデータ) (2025-02-10T04:20:11Z) - X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。
GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文 参考訳(メタデータ) (2023-12-04T18:55:45Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。