論文の概要: Attention-Based VR Facial Animation with Visual Mouth Camera Guidance
for Immersive Telepresence Avatars
- arxiv url: http://arxiv.org/abs/2312.09750v1
- Date: Fri, 15 Dec 2023 12:45:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 15:51:21.251557
- Title: Attention-Based VR Facial Animation with Visual Mouth Camera Guidance
for Immersive Telepresence Avatars
- Title(参考訳): 没入型テレプレゼンスアバターのための視覚モースカメラ誘導による注意型VR顔アニメーション
- Authors: Andre Rochow, Max Schwarz, Sven Behnke
- Abstract要約: 本稿では,マウスカメラのキーポイントと直接視覚誘導を併用したハイブリッド手法を提案する。
提案手法は,未知の演算子に一般化され,短いビデオ2本をキャプチャして簡単なエンロラメントステップのみを必要とする。
我々は、ANAアバターXPRIZEファイナルでの勝利に顔のアニメーションがどう貢献したかを強調した。
- 参考スコア(独自算出の注目度): 19.70403947793871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial animation in virtual reality environments is essential for
applications that necessitate clear visibility of the user's face and the
ability to convey emotional signals. In our scenario, we animate the face of an
operator who controls a robotic Avatar system. The use of facial animation is
particularly valuable when the perception of interacting with a specific
individual, rather than just a robot, is intended. Purely keypoint-driven
animation approaches struggle with the complexity of facial movements. We
present a hybrid method that uses both keypoints and direct visual guidance
from a mouth camera. Our method generalizes to unseen operators and requires
only a quick enrolment step with capture of two short videos. Multiple source
images are selected with the intention to cover different facial expressions.
Given a mouth camera frame from the HMD, we dynamically construct the target
keypoints and apply an attention mechanism to determine the importance of each
source image. To resolve keypoint ambiguities and animate a broader range of
mouth expressions, we propose to inject visual mouth camera information into
the latent space. We enable training on large-scale speaking head datasets by
simulating the mouth camera input with its perspective differences and facial
deformations. Our method outperforms a baseline in quality, capability, and
temporal consistency. In addition, we highlight how the facial animation
contributed to our victory at the ANA Avatar XPRIZE Finals.
- Abstract(参考訳): 仮想環境における顔のアニメーションは、ユーザーの顔の鮮明な視認と感情的な信号を伝達する能力を必要とするアプリケーションに不可欠である。
私たちのシナリオでは、ロボットアバターシステムを制御するオペレータの顔をアニメーション化します。
顔アニメーションの使用は、ロボットではなく特定の個人との対話の知覚が意図されている場合に特に有用である。
純粋にキーポイント駆動のアニメーションアプローチは、顔の動きの複雑さに苦しむ。
本稿では,マウスカメラのキーポイントと直接視覚誘導を併用したハイブリッド手法を提案する。
提案手法は,未発見のオペレータに一般化し,短い映像を2本撮るだけでよい。
複数のソース画像が、異なる表情をカバーするために選択される。
HMDから口カメラフレームが与えられた場合、ターゲットキーポイントを動的に構築し、各ソース画像の重要性を決定するために注意機構を適用する。
キーポイントの曖昧さを解消し,広い範囲の口の表情をアニメーション化するために,視覚的な口のカメラ情報を潜伏空間に注入することを提案する。
口内カメラ入力とその視点差と顔の変形をシミュレートし,大規模発話頭部データセットの学習を可能にする。
本手法は品質・能力・時間的一貫性の基準を上回っている。
さらに、ANAアバターXPRIZEファイナルでの勝利に顔のアニメーションがどう貢献したかを強調した。
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Universal Facial Encoding of Codec Avatars from VR Headsets [32.60236093340087]
コンシューマー向けVRヘッドセットのヘッドマウントカメラ(HMC)を用いて,光リアルアバターをリアルタイムにアニメーションする手法を提案する。
本稿では,実行時の効率向上に最小限のコストで精度を高める軽量な式キャリブレーション機構を提案する。
論文 参考訳(メタデータ) (2024-07-17T22:08:15Z) - VR Facial Animation for Immersive Telepresence Avatars [25.506570225219406]
VRヘッドセットが装着されている場合でも、顔の鮮明な視界を必要とするアプリケーションには、VR顔アニメーションが必要である。
特定の演算子に対して非常に高速な適応が可能なリアルタイム能動パイプラインを提案する。
1分以内でトレーニングできる視線追跡パイプラインを実演します。
論文 参考訳(メタデータ) (2023-04-24T12:43:51Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Identity-Preserving Realistic Talking Face Generation [4.848016645393023]
音声から現実的な顔のアニメーションを識別する手法を提案する。
教師なし学習を用いて顔のランドマークに点眼する。
また、LSGANを用いて、人物特有の顔のランドマークから顔のテクスチャを生成する。
論文 参考訳(メタデータ) (2020-05-25T18:08:28Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。