論文の概要: READ Avatars: Realistic Emotion-controllable Audio Driven Avatars
- arxiv url: http://arxiv.org/abs/2303.00744v1
- Date: Wed, 1 Mar 2023 18:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 13:35:27.114091
- Title: READ Avatars: Realistic Emotion-controllable Audio Driven Avatars
- Title(参考訳): リアルな感情制御可能な音声駆動アバター
- Authors: Jack Saunders, Vinay Namboodiri
- Abstract要約: 本稿では、感情を直接制御したオーディオ入力によって駆動される2次元アバターを生成するための3次元アプローチであるREAD Avatarsを提案する。
従来の手法では、音声から表現マッピングへの多対多の性質のため、現実的なアニメーションを達成できない。
これは回帰モデルによる滑らかな効果を排除し、生成されたアバターの現実性と表現性を改善するのに役立つ。
- 参考スコア(独自算出の注目度): 11.98034899127065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present READ Avatars, a 3D-based approach for generating 2D avatars that
are driven by audio input with direct and granular control over the emotion.
Previous methods are unable to achieve realistic animation due to the
many-to-many nature of audio to expression mappings. We alleviate this issue by
introducing an adversarial loss in the audio-to-expression generation process.
This removes the smoothing effect of regression-based models and helps to
improve the realism and expressiveness of the generated avatars. We note
furthermore, that audio should be directly utilized when generating mouth
interiors and that other 3D-based methods do not attempt this. We address this
with audio-conditioned neural textures, which are resolution-independent. To
evaluate the performance of our method, we perform quantitative and qualitative
experiments, including a user study. We also propose a new metric for comparing
how well an actor's emotion is reconstructed in the generated avatar. Our
results show that our approach outperforms state of the art audio-driven avatar
generation methods across several metrics. A demo video can be found at
\url{https://youtu.be/QSyMl3vV0pA}
- Abstract(参考訳): 本研究では,音声入力によって駆動される2次元アバターを生成する3dアプローチであるread avatarsを提案する。
従来の手法では、音声から表現マッピングへの多対多の性質のため、現実的なアニメーションを達成できない。
我々は,音声対表現生成プロセスにおける敵意的損失を導入することにより,この問題を緩和する。
これは回帰モデルによる滑らかな効果を排除し、生成されたアバターの現実性と表現性を改善するのに役立つ。
さらに、音声は口内を発生させる際に直接活用されるべきであり、他の3Dベースの手法はそれを試みない。
我々は、解像度に依存しない音声条件付きニューラルテクスチャでこの問題に対処する。
提案手法の性能を評価するため,ユーザスタディを含む定量的,定性的な実験を行った。
また,生成したアバター内で俳優の感情がいかによく再現されているかを比較するための新しい指標を提案する。
以上の結果から,本手法は複数の測定値にまたがって,artオーディオ駆動アバター生成手法に勝ることが示された。
デモビデオは \url{https://youtu.be/QSyMl3vV0pA} で見ることができる。
関連論文リスト
- GAN-Avatar: Controllable Personalized GAN-based Human Head Avatar [48.21353924040671]
そこで本稿では,顔表情の正確な追跡を行うことなく,画像から人固有のアニマタブルなアバターを学習することを提案する。
3DMMの表情パラメータから生成モデルの潜在空間へのマッピングを学習する。
この方式により、3次元の外観再構成とアニメーション制御を分離し、画像合成における高忠実度を実現する。
論文 参考訳(メタデータ) (2023-11-22T19:13:00Z) - OPHAvatars: One-shot Photo-realistic Head Avatars [0.0]
ポートレートが与えられた場合、駆動キーポイント機能を用いて、粗い音声ヘッドビデオを合成する。
粗いアバターのレンダリング画像を用いて,低画質の画像をブラインド顔復元モデルで更新する。
数回繰り返して、本手法は光リアルなアニマタブルな3Dニューラルヘッドアバターを合成することができる。
論文 参考訳(メタデータ) (2023-07-18T11:24:42Z) - AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars [84.85009267371218]
本研究では,動的なフルヘッドアバターの外観を編集するテキストベースのAvatarStudioを提案する。
提案手法は,ニューラルフィールド(NeRF)を用いて人間の頭部のダイナミックなパフォーマンスを捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。
提案手法は,全頭部を標準空間で編集し,事前学習した変形ネットワークを介して残時間ステップに伝達する。
論文 参考訳(メタデータ) (2023-06-01T11:06:01Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - AvatarMAV: Fast 3D Head Avatar Reconstruction Using Motion-Aware Neural
Voxels [33.085274792188756]
動作認識型ニューラルボクセルを用いた高速な3次元頭部アバター再構成法であるAvatarMAVを提案する。
アバターMAVは、頭アバターの神経ボクセルによる標準的外観と解離した表情運動の両方をモデル化した最初のものである。
提案したAvatarMAVは、最先端の顔再現法よりもはるかに高速な5分で、フォトリアリスティックな頭部アバターを回収することができる。
論文 参考訳(メタデータ) (2022-11-23T18:49:31Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。