論文の概要: EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions
- arxiv url: http://arxiv.org/abs/2407.08136v2
- Date: Fri, 12 Jul 2024 02:41:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 03:48:26.799746
- Title: EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions
- Title(参考訳): EchoMimic: 編集可能なランドマーク条件によるライブライクなオーディオ駆動のポートレートアニメーション
- Authors: Zhiyuan Chen, Jiajiong Cao, Zhiquan Chen, Yuming Li, Chenguang Ma,
- Abstract要約: オーディオのみによって駆動される手法は、時には不安定である。
顔のキーポイントのみによって駆動される方法は、より安定した運転ではあるものの、不自然な結果をもたらす。
私たちはEchoMimicという新しいアプローチを導入しました。
- 参考スコア(独自算出の注目度): 6.7664644691113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The area of portrait image animation, propelled by audio input, has witnessed notable progress in the generation of lifelike and dynamic portraits. Conventional methods are limited to utilizing either audios or facial key points to drive images into videos, while they can yield satisfactory results, certain issues exist. For instance, methods driven solely by audios can be unstable at times due to the relatively weaker audio signal, while methods driven exclusively by facial key points, although more stable in driving, can result in unnatural outcomes due to the excessive control of key point information. In addressing the previously mentioned challenges, in this paper, we introduce a novel approach which we named EchoMimic. EchoMimic is concurrently trained using both audios and facial landmarks. Through the implementation of a novel training strategy, EchoMimic is capable of generating portrait videos not only by audios and facial landmarks individually, but also by a combination of both audios and selected facial landmarks. EchoMimic has been comprehensively compared with alternative algorithms across various public datasets and our collected dataset, showcasing superior performance in both quantitative and qualitative evaluations. Additional visualization and access to the source code can be located on the EchoMimic project page.
- Abstract(参考訳): オーディオ入力によって推進されるポートレートイメージアニメーションの領域は、ライフライクでダイナミックなポートレートの生成において顕著な進歩を見せている。
従来の方法では、音声または顔のキーポイントを使用して映像をビデオに駆動するに限られるが、良好な結果が得られるが、ある問題が存在する。
例えば、音声のみによって駆動される手法は、比較的弱い音声信号のために時々不安定になり、一方、顔のキーポイントのみによって駆動される手法は、運転時により安定しているが、キーポイント情報の過剰な制御による不自然な結果をもたらす可能性がある。
本稿では,これまでに述べた課題に対処するため,EchoMimicという新しいアプローチを提案する。
EchoMimicはオーディオと顔のランドマークの両方を使って同時にトレーニングされている。
新たなトレーニング戦略の実装を通じて、EchoMimicは、オーディオと顔のランドマークを個別に生成するだけでなく、オーディオと選択された顔のランドマークを組み合わせることで、ポートレートビデオを生成することができる。
EchoMimicは、さまざまな公開データセットや収集データセットの代替アルゴリズムと比較して総合的に比較され、定量評価と定性評価の両方において優れたパフォーマンスを示している。
ソースコードへのさらなる視覚化とアクセスは、EchoMimicプロジェクトページにある。
関連論文リスト
- Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - EMOPortraits: Emotion-enhanced Multimodal One-shot Head Avatars [36.96390906514729]
MegaPortraitsモデルは、この領域で最先端の結果を示している。
EMOPortraitsモデルを紹介します。 強靭で非対称な顔表現を忠実にサポートするモデルの能力を強化する。
そこで本研究では,多彩な表情と非対称な表情を特徴とする新しい多視点ビデオデータセットを提案する。
論文 参考訳(メタデータ) (2024-04-29T21:23:29Z) - ReliTalk: Relightable Talking Portrait Generation from a Single Video [62.47116237654984]
ReliTalkは、モノクロビデオから再生可能なオーディオ駆動型音声ポートレート生成のための新しいフレームワークである。
我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。
論文 参考訳(メタデータ) (2023-09-05T17:59:42Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z) - Facial Keypoint Sequence Generation from Audio [2.66512000865131]
本研究は,音声キーポイントデータセットを提案し,任意の長さの音声を出力する上で有効なキーポイントシーケンスを出力するモデルを学習する。
オーディオキーポイントデータセットを提案して、任意の長さのオーディオを出力するためのモデルを学ぶ最初の作品である。
論文 参考訳(メタデータ) (2020-11-02T16:47:52Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。