論文の概要: MODA: Mapping-Once Audio-driven Portrait Animation with Dual Attentions
- arxiv url: http://arxiv.org/abs/2307.10008v1
- Date: Wed, 19 Jul 2023 14:45:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 13:49:00.704600
- Title: MODA: Mapping-Once Audio-driven Portrait Animation with Dual Attentions
- Title(参考訳): moda:2重注意でオーディオ駆動のポートレートアニメーションをマッピングする
- Authors: Yunfei Liu, Lijian Lin, Fei Yu, Changyin Zhou, Yu Li
- Abstract要約: 本稿では,多人数多人数多人数多人数多人数多人数多人数多人数多人数多人数多人数多人数音声画像生成のための統一システムを提案する。
提案手法は,(1)デュアルアテンション(MODA)を用いたマッピング・オース・ネットワークの3段階を含む。
提案システムは,従来の手法と比較して,より自然でリアルな映像像を生成する。
- 参考スコア(独自算出の注目度): 15.626317162430087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven portrait animation aims to synthesize portrait videos that are
conditioned by given audio. Animating high-fidelity and multimodal video
portraits has a variety of applications. Previous methods have attempted to
capture different motion modes and generate high-fidelity portrait videos by
training different models or sampling signals from given videos. However,
lacking correlation learning between lip-sync and other movements (e.g., head
pose/eye blinking) usually leads to unnatural results. In this paper, we
propose a unified system for multi-person, diverse, and high-fidelity talking
portrait generation. Our method contains three stages, i.e., 1) Mapping-Once
network with Dual Attentions (MODA) generates talking representation from given
audio. In MODA, we design a dual-attention module to encode accurate mouth
movements and diverse modalities. 2) Facial composer network generates dense
and detailed face landmarks, and 3) temporal-guided renderer syntheses stable
videos. Extensive evaluations demonstrate that the proposed system produces
more natural and realistic video portraits compared to previous methods.
- Abstract(参考訳): オーディオ駆動のポートレートアニメーションは、与えられたオーディオによって条件付けられたポートレートビデオの合成を目的としている。
高精細でマルチモーダルなビデオポートレートのアニメーションには様々な応用がある。
これまで、異なるモーションモードをキャプチャし、異なるモデルを訓練したり、所定のビデオから信号をサンプリングすることで高忠実なポートレートビデオを生成する試みがあった。
しかし、リップシンクと他の動き(例えば頭部のポーズや眼の点滅など)との相関学習の欠如は、通常不自然な結果をもたらす。
本稿では,多人数・多様・高忠実なトーキング・ポートレート生成のための統一システムを提案する。
本手法は3段階,すなわち3段階を含む。
1) デュアルアテンション(MODA)を用いたマッピング・オースネットワークは,所定の音声から音声表現を生成する。
MODAでは,正確な口の動きと多彩なモダリティを符号化するデュアルアテンションモジュールを設計する。
2)顔合成ネットワークは、濃密で詳細な顔ランドマークを生成し、
3)テンポラリガイドレンダラーは安定したビデオを合成する。
広範に評価した結果,提案手法は従来手法よりも自然でリアルな映像像を生成することがわかった。
関連論文リスト
- MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks [25.39030226963548]
ポートレートアニメーションのための予め訓練されたトランスフォーマーに基づくビデオ生成モデルの最初の応用について紹介する。
提案手法は,ベンチマーク実験と新たに提案したワイルドデータセットを用いて検証する。
論文 参考訳(メタデータ) (2024-12-01T08:54:30Z) - AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation [4.568539181254851]
本稿では,オーディオによる高品質なアニメーションを生成するためのフレームワークであるAniPortraitと,参照ポートレート画像を提案する。
実験により,AniPortraitの顔の自然性,ポーズの多様性,視覚的品質の面での優位性が示された。
本手法は,顔の動きの編集や顔の再現といった領域に効果的に適用可能な,柔軟性や制御性の観点からも有意な可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-26T13:35:02Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - VideoReTalking: Audio-based Lip Synchronization for Talking Head Video
Editing In the Wild [37.93856291026653]
VideoReTalkingは、現実世界のトーキングヘッドビデオの顔を入力音声で編集する新しいシステムである。
感情が違う場合でも、高品質でリップシンクの出力ビデオを生成する。
論文 参考訳(メタデータ) (2022-11-27T08:14:23Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。