論文の概要: Audio- and Gaze-driven Facial Animation of Codec Avatars
- arxiv url: http://arxiv.org/abs/2008.05023v1
- Date: Tue, 11 Aug 2020 22:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:03:56.736489
- Title: Audio- and Gaze-driven Facial Animation of Codec Avatars
- Title(参考訳): コーデックアバターの音声と視線による顔アニメーション
- Authors: Alexander Richard, Colin Lea, Shugao Ma, Juergen Gall, Fernando de la
Torre, Yaser Sheikh
- Abstract要約: 音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
- 参考スコア(独自算出の注目度): 149.0094713268313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Codec Avatars are a recent class of learned, photorealistic face models that
accurately represent the geometry and texture of a person in 3D (i.e., for
virtual reality), and are almost indistinguishable from video. In this paper we
describe the first approach to animate these parametric models in real-time
which could be deployed on commodity virtual reality hardware using audio
and/or eye tracking. Our goal is to display expressive conversations between
individuals that exhibit important social signals such as laughter and
excitement solely from latent cues in our lossy input signals. To this end we
collected over 5 hours of high frame rate 3D face scans across three
participants including traditional neutral speech as well as expressive and
conversational speech. We investigate a multimodal fusion approach that
dynamically identifies which sensor encoding should animate which parts of the
face at any time. See the supplemental video which demonstrates our ability to
generate full face motion far beyond the typically neutral lip articulations
seen in competing work:
https://research.fb.com/videos/audio-and-gaze-driven-facial-animation-of-codec-avatars/
- Abstract(参考訳): コーデックアバターは、3d(つまり仮想現実)で人の形状とテクスチャを正確に表現し、ビデオとほとんど区別できない、最近の学習されたフォトリアリスティックな顔モデルである。
本稿では,これらのパラメトリックモデルをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
我々の目標は、失った入力信号の潜伏した手がかりからのみ、笑いや興奮といった重要な社会的シグナルを示す個人間の表現的な会話を示すことである。
この結果から,従来の中性音声,表現的・会話的音声を含む3人の被験者を対象に,フレームレート3次元顔スキャンを5時間以上収集した。
本研究では,どのセンサエンコーディングが顔のどの部分をいつでもアニメーション化するべきかを動的に識別するマルチモーダル融合手法について検討する。
競合する作品で見られる通常中立的な唇調音をはるかに超える完全な顔の動きを生成する能力を示す補足ビデオをご覧ください。
関連論文リスト
- EmoFace: Audio-driven Emotional 3D Face Animation [3.573880705052592]
EmoFaceは、鮮やかな感情的ダイナミクスを備えた顔アニメーションを作成するための、新しいオーディオ駆動の方法論である。
提案手法では,複数の感情で表情を生成でき,ランダムだが自然な点滅や眼球運動を生成できる。
提案手法は、ビデオゲームでプレイ不可能なキャラクターの対話アニメーションを作成し、バーチャルリアリティ環境でアバターを駆動するのに有効である。
論文 参考訳(メタデータ) (2024-07-17T11:32:16Z) - Media2Face: Co-speech Facial Animation Generation With Multi-Modality
Guidance [41.692420421029695]
本稿では,顔の形状と画像を高一般化された表現潜在空間にマッピングする,効率的な変分自動エンコーダを提案する。
次に、GNPFAを用いて、多数のビデオから高品質な表現と正確な頭部ポーズを抽出する。
GNPFAラテント空間における拡散モデルMedia2Faceを提案する。
論文 参考訳(メタデータ) (2024-01-28T16:17:59Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute
Learning [23.14865405847467]
本稿では,音声信号を入力とし,短いターゲット映像クリップを参照として,話し顔を生成する手法を提案する。
本発明の方法は、入力された音声信号と同期した自然な唇の動き、頭部ポーズ、および目の点滅で、対象の顔の写実的な映像を合成する。
実験結果とユーザスタディにより,本手法は,最先端の手法よりも優れた品質で,現実的な音声ビデオを生成することができることが示された。
論文 参考訳(メタデータ) (2021-08-18T02:10:26Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。