Fugu-MT 論文翻訳(概要): AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

論文の概要: AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

arxiv url: http://arxiv.org/abs/2403.17694v1
Date: Tue, 26 Mar 2024 13:35:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 15:17:51.074640
Title: AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation
Title（参考訳）: AniPortrait:フォトリアリスティック・ポートレートアニメーションのオーディオ駆動合成
Authors: Huawei Wei, Zejun Yang, Zhisheng Wang,
Abstract要約: 本稿では,オーディオによる高品質なアニメーションを生成するためのフレームワークであるAniPortraitと,参照ポートレート画像を提案する。実験により,AniPortraitの顔の自然性,ポーズの多様性,視覚的品質の面での優位性が示された。本手法は,顔の動きの編集や顔の再現といった領域に効果的に適用可能な,柔軟性や制御性の観点からも有意な可能性を秘めている。
参考スコア（独自算出の注目度）: 4.568539181254851
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we propose AniPortrait, a novel framework for generating high-quality animation driven by audio and a reference portrait image. Our methodology is divided into two stages. Initially, we extract 3D intermediate representations from audio and project them into a sequence of 2D facial landmarks. Subsequently, we employ a robust diffusion model, coupled with a motion module, to convert the landmark sequence into photorealistic and temporally consistent portrait animation. Experimental results demonstrate the superiority of AniPortrait in terms of facial naturalness, pose diversity, and visual quality, thereby offering an enhanced perceptual experience. Moreover, our methodology exhibits considerable potential in terms of flexibility and controllability, which can be effectively applied in areas such as facial motion editing or face reenactment. We release code and model weights at https://github.com/scutzzj/AniPortrait
Abstract（参考訳）: 本研究では,オーディオによって駆動される高品質なアニメーションを生成するための新しいフレームワークであるAniPortraitと参照ポートレート画像を提案する。私たちの方法論は2つの段階に分けられる。まず、音声から3D中間表現を抽出し、2D顔のランドマークのシーケンスに投影する。次に,移動モジュールと結合した頑健な拡散モデルを用いて,ランドマーク列をフォトリアリスティックかつ時間的に一貫したポートレートアニメーションに変換する。実験の結果,AniPortraitの顔の自然性,ポーズの多様性,視覚的品質が優れており,知覚体験が向上した。さらに,顔の動きの編集や顔の再現といった領域に効果的に適用できる柔軟性や制御性の観点からも,本手法は有意な可能性を秘めている。コードとモデルの重み付けはhttps://github.com/scutzzj/AniPortraitで公開しています。

関連論文リスト

Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Video Diffusion Transformer [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文参考訳（メタデータ） (2024-12-01T08:54:30Z)
JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation [10.003794924759765]
JoyVASAは、音声駆動型顔アニメーションにおける顔の動きと頭部の動きを生成する拡散法である。本研究では,静的な3次元顔表現から動的表情を分離する分離された顔表現フレームワークを提案する。第2段階では、拡散変圧器を訓練し、文字の同一性によらず、オーディオキューから直接動作シーケンスを生成する。
論文参考訳（メタデータ） (2024-11-14T06:13:05Z)
G3FA: Geometry-guided GAN for Face Animation [14.488117084637631]
この制限に対処するために、顔アニメーション(G3FA)のための幾何学誘導型GANを導入する。我々の新しいアプローチは、顔アニメーションモデルに2次元画像のみを用いて3次元情報を組み込むことを可能にした。顔の再現モデルでは、動きのダイナミクスを捉えるために2次元の運動ワープを利用する。
論文参考訳（メタデータ） (2024-08-23T13:13:24Z)
Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation [53.767090490974745]
Follow-Your-Emojiは、ポートレートアニメーションのための拡散ベースのフレームワークである。参照ポートレートとターゲットランドマークシーケンスを識別する。本手法は,フリースタイルの肖像画の表現を制御できることを実証する。
論文参考訳（メタデータ） (2024-06-04T02:05:57Z)
Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文参考訳（メタデータ） (2024-01-16T17:04:30Z)
AniPortraitGAN: Animatable 3D Portrait Generation from 2D Image Collections [78.81539337399391]
顔の表情, 頭部ポーズ, 肩の動きを制御可能なポートレート画像を生成するアニマタブルな3D認識型GANを提案する。これは、3Dやビデオデータを使用しない非構造化2次元画像コレクションで訓練された生成モデルである。生成した顔の質を向上させるために,デュアルカメラレンダリングと対角学習方式を提案する。
論文参考訳（メタデータ） (2023-09-05T12:44:57Z)
MODA: Mapping-Once Audio-driven Portrait Animation with Dual Attentions [15.626317162430087]
本稿では,多人数多人数多人数多人数多人数多人数多人数多人数多人数多人数多人数多人数音声画像生成のための統一システムを提案する。提案手法は,(1)デュアルアテンション(MODA)を用いたマッピング・オース・ネットワークの3段階を含む。提案システムは,従来の手法と比較して,より自然でリアルな映像像を生成する。
論文参考訳（メタデータ） (2023-07-19T14:45:11Z)
PV3D: A 3D Generative Model for Portrait Video Generation [94.96025739097922]
我々は,多視点一貫した肖像画を合成できる最初の生成フレームワークであるPV3Dを提案する。 PV3Dは、静的ポートレートのアニメーションやビュー一貫性のあるビデオモーション編集など、多くのダウンストリームアプリケーションをサポートすることができる。
論文参考訳（メタデータ） (2022-12-13T05:42:44Z)
Explicitly Controllable 3D-Aware Portrait Generation [42.30481422714532]
ポーズ,アイデンティティ,表現,照明に関する意味的パラメータに基づいて,一貫した肖像画を生成する3次元肖像画生成ネットワークを提案する。提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。
論文参考訳（メタデータ） (2022-09-12T17:40:08Z)
PIRenderer: Controllable Portrait Image Generation via Semantic Neural Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文参考訳（メタデータ） (2021-09-17T07:24:16Z)
MeshTalk: 3D Face Animation from Speech using Cross-Modality Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文参考訳（メタデータ） (2021-04-16T17:05:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。