論文の概要: READ Avatars: Realistic Emotion-controllable Audio Driven Avatars
- arxiv url: http://arxiv.org/abs/2303.00744v1
- Date: Wed, 1 Mar 2023 18:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 13:35:27.114091
- Title: READ Avatars: Realistic Emotion-controllable Audio Driven Avatars
- Title(参考訳): リアルな感情制御可能な音声駆動アバター
- Authors: Jack Saunders, Vinay Namboodiri
- Abstract要約: 本稿では、感情を直接制御したオーディオ入力によって駆動される2次元アバターを生成するための3次元アプローチであるREAD Avatarsを提案する。
従来の手法では、音声から表現マッピングへの多対多の性質のため、現実的なアニメーションを達成できない。
これは回帰モデルによる滑らかな効果を排除し、生成されたアバターの現実性と表現性を改善するのに役立つ。
- 参考スコア(独自算出の注目度): 11.98034899127065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present READ Avatars, a 3D-based approach for generating 2D avatars that
are driven by audio input with direct and granular control over the emotion.
Previous methods are unable to achieve realistic animation due to the
many-to-many nature of audio to expression mappings. We alleviate this issue by
introducing an adversarial loss in the audio-to-expression generation process.
This removes the smoothing effect of regression-based models and helps to
improve the realism and expressiveness of the generated avatars. We note
furthermore, that audio should be directly utilized when generating mouth
interiors and that other 3D-based methods do not attempt this. We address this
with audio-conditioned neural textures, which are resolution-independent. To
evaluate the performance of our method, we perform quantitative and qualitative
experiments, including a user study. We also propose a new metric for comparing
how well an actor's emotion is reconstructed in the generated avatar. Our
results show that our approach outperforms state of the art audio-driven avatar
generation methods across several metrics. A demo video can be found at
\url{https://youtu.be/QSyMl3vV0pA}
- Abstract(参考訳): 本研究では,音声入力によって駆動される2次元アバターを生成する3dアプローチであるread avatarsを提案する。
従来の手法では、音声から表現マッピングへの多対多の性質のため、現実的なアニメーションを達成できない。
我々は,音声対表現生成プロセスにおける敵意的損失を導入することにより,この問題を緩和する。
これは回帰モデルによる滑らかな効果を排除し、生成されたアバターの現実性と表現性を改善するのに役立つ。
さらに、音声は口内を発生させる際に直接活用されるべきであり、他の3Dベースの手法はそれを試みない。
我々は、解像度に依存しない音声条件付きニューラルテクスチャでこの問題に対処する。
提案手法の性能を評価するため,ユーザスタディを含む定量的,定性的な実験を行った。
また,生成したアバター内で俳優の感情がいかによく再現されているかを比較するための新しい指標を提案する。
以上の結果から,本手法は複数の測定値にまたがって,artオーディオ駆動アバター生成手法に勝ることが示された。
デモビデオは \url{https://youtu.be/QSyMl3vV0pA} で見ることができる。
関連論文リスト
- Generalizable and Animatable Gaussian Head Avatar [50.34788590904843]
本稿では,GAGAvatar(Generalizable and Animatable Gaussian Head Avatar)を提案する。
我々は、1つの前方通過で1つの画像から3次元ガウスのパラメータを生成する。
提案手法は, 従来の手法と比較して, 再現性や表現精度の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-10T14:29:00Z) - DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D
Diffusion [69.67970568012599]
テキストからアニマタブルな3Dアバター生成のための新しい学習フレームワークDreamWaltz-Gを提案する。
このフレームワークのコアはScore DistillationとHybrid 3D Gaussian Avatar表現にある。
我々のフレームワークは、人間のビデオ再現や多目的シーン構成など、多様なアプリケーションもサポートしています。
論文 参考訳(メタデータ) (2024-09-25T17:59:45Z) - EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。
提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。
提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文 参考訳(メタデータ) (2024-07-17T11:32:16Z) - InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation [39.235962838952624]
本稿では,感情表現型2Dアバターを生成するための新しいテキスト誘導手法を提案する。
我々のフレームワークであるInstructAvatarは、自然言語インタフェースを利用して感情やアバターの顔の動きを制御します。
実験結果から,InstructAvatarは両条件とも良好に一致した結果が得られた。
論文 参考訳(メタデータ) (2024-05-24T17:53:54Z) - OPHAvatars: One-shot Photo-realistic Head Avatars [0.0]
ポートレートが与えられた場合、駆動キーポイント機能を用いて、粗い音声ヘッドビデオを合成する。
粗いアバターのレンダリング画像を用いて,低画質の画像をブラインド顔復元モデルで更新する。
数回繰り返して、本手法は光リアルなアニマタブルな3Dニューラルヘッドアバターを合成することができる。
論文 参考訳(メタデータ) (2023-07-18T11:24:42Z) - AvatarStudio: Text-driven Editing of 3D Dynamic Human Head Avatars [84.85009267371218]
本研究では,動的なフルヘッドアバターの外観を編集するテキストベースのAvatarStudioを提案する。
提案手法は,ニューラルフィールド(NeRF)を用いて人間の頭部のダイナミックなパフォーマンスを捉え,テキスト・ツー・イメージ拡散モデルを用いてこの表現を編集する。
提案手法は,全頭部を標準空間で編集し,事前学習した変形ネットワークを介して残時間ステップに伝達する。
論文 参考訳(メタデータ) (2023-06-01T11:06:01Z) - AvatarMAV: Fast 3D Head Avatar Reconstruction Using Motion-Aware Neural
Voxels [33.085274792188756]
動作認識型ニューラルボクセルを用いた高速な3次元頭部アバター再構成法であるAvatarMAVを提案する。
アバターMAVは、頭アバターの神経ボクセルによる標準的外観と解離した表情運動の両方をモデル化した最初のものである。
提案したAvatarMAVは、最先端の顔再現法よりもはるかに高速な5分で、フォトリアリスティックな頭部アバターを回収することができる。
論文 参考訳(メタデータ) (2022-11-23T18:49:31Z) - EMOCA: Emotion Driven Monocular Face Capture and Animation [59.15004328155593]
本稿では,学習中の感情の深層的一貫性を損なうことによって,再構成された3次元表現が入力画像に表現された表現と一致することを確実にする。
In-the-wild emotion recognitionのタスクでは、人間の行動を分析する上での3D幾何の価値を強調しながら、最も優れた画像ベースの手法と同等に幾何学的アプローチを実践しています。
論文 参考訳(メタデータ) (2022-04-24T15:58:35Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。