論文の概要: Facial Expression Re-targeting from a Single Character
- arxiv url: http://arxiv.org/abs/2306.12188v1
- Date: Wed, 21 Jun 2023 11:35:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 13:50:14.739475
- Title: Facial Expression Re-targeting from a Single Character
- Title(参考訳): 単一文字からの表情再ターゲティング
- Authors: Ariel Larey, Omri Asraf, Adam Kelder, Itzik Wilf, Ofer Kruzel, Nati
Daniel
- Abstract要約: 3Dキャラクタの表情を表現するための標準的な方法は、ブレンドシャッフルである。
私たちは、各顔器官のランドマークをグループ化し、それらを関連するブレンドシェープ重みに結合する独自のディープラーニングアーキテクチャを開発しました。
我々のアプローチは、様々なユーザや表現のあるビデオでテストすると、より高いMOSが68%、低いMSEが44.2%に達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video retargeting for digital face animation is used in virtual reality,
social media, gaming, movies, and video conference, aiming to animate avatars'
facial expressions based on videos of human faces. The standard method to
represent facial expressions for 3D characters is by blendshapes, a vector of
weights representing the avatar's neutral shape and its variations under facial
expressions, e.g., smile, puff, blinking. Datasets of paired frames with
blendshape vectors are rare, and labeling can be laborious, time-consuming, and
subjective. In this work, we developed an approach that handles the lack of
appropriate datasets. Instead, we used a synthetic dataset of only one
character. To generalize various characters, we re-represented each frame to
face landmarks. We developed a unique deep-learning architecture that groups
landmarks for each facial organ and connects them to relevant blendshape
weights. Additionally, we incorporated complementary methods for facial
expressions that landmarks did not represent well and gave special attention to
eye expressions. We have demonstrated the superiority of our approach to
previous research in qualitative and quantitative metrics. Our approach
achieved a higher MOS of 68% and a lower MSE of 44.2% when tested on videos
with various users and expressions.
- Abstract(参考訳): デジタル顔アニメーションのためのビデオリターゲティングは、人間の顔のビデオに基づいてアバターの表情をアニメーション化することを目的として、仮想現実、ソーシャルメディア、ゲーム、映画、ビデオ会議で使用されている。
3Dキャラクタの表情を表現するための標準的な方法は、アバターの中立な形状と、笑顔、パフ、点滅などの表情におけるその変化を表す重みのベクトルであるブレンドサッフェである。
ブレンドシェープベクトルを持つペアフレームのデータセットは稀であり、ラベル付けは手間がかかり、時間がかかり、主観的になる。
本研究では,適切なデータセットの不足に対処するアプローチを開発した。
代わりに、1文字のみの合成データセットを使用しました。
様々な文字を一般化するために,各フレームをランドマークに再表現した。
我々は、各顔器官のランドマークをグループ化し、それらを関連するブレンドシェープ重みに結びつける独自のディープラーニングアーキテクチャを開発した。
また,目印がうまく表現できない表情に対して補足的な手法を取り入れ,目印表現に特に注意を向けた。
我々は,これまでの質的・定量的指標研究に対するアプローチの優位性を実証した。
我々のアプローチは、様々なユーザや表現のあるビデオでテストすると、より高いMOSが68%、低いMSEが44.2%に達した。
関連論文リスト
- FreeAvatar: Robust 3D Facial Animation Transfer by Learning an Expression Foundation Model [45.0201701977516]
ビデオ駆動の3D顔アニメーション転送は、アクターの表情を再現するためにアバターを駆動することを目的としている。
我々は,学習した表現のみに依存する,堅牢な顔アニメーショントランスファー手法であるFreeAvatarを提案する。
論文 参考訳(メタデータ) (2024-09-20T03:17:01Z) - GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - Media2Face: Co-speech Facial Animation Generation With Multi-Modality
Guidance [41.692420421029695]
本稿では,顔の形状と画像を高一般化された表現潜在空間にマッピングする,効率的な変分自動エンコーダを提案する。
次に、GNPFAを用いて、多数のビデオから高品質な表現と正確な頭部ポーズを抽出する。
GNPFAラテント空間における拡散モデルMedia2Faceを提案する。
論文 参考訳(メタデータ) (2024-01-28T16:17:59Z) - Attention-Based VR Facial Animation with Visual Mouth Camera Guidance
for Immersive Telepresence Avatars [19.70403947793871]
本稿では,マウスカメラのキーポイントと直接視覚誘導を併用したハイブリッド手法を提案する。
提案手法は,未知の演算子に一般化され,短いビデオ2本をキャプチャして簡単なエンロラメントステップのみを必要とする。
我々は、ANAアバターXPRIZEファイナルでの勝利に顔のアニメーションがどう貢献したかを強調した。
論文 参考訳(メタデータ) (2023-12-15T12:45:11Z) - ChatAnything: Facetime Chat with LLM-Enhanced Personas [87.76804680223003]
多様な音声・外観生成のための音声(MoV)とディフューザ(MoD)の混合を提案する。
MoVでは,テキスト音声合成(TTS)アルゴリズムを様々な事前定義された音色で活用する。
近年普及しているテキスト・画像生成技術とトーキングヘッドアルゴリズムを組み合わせることで,音声オブジェクトの生成プロセスの合理化を図る。
論文 参考訳(メタデータ) (2023-11-12T08:29:41Z) - I M Avatar: Implicit Morphable Head Avatars from Videos [68.13409777995392]
モノクロビデオから暗黙の頭部アバターを学習するための新しい手法であるIMavatarを提案する。
従来の3DMMによるきめ細かい制御機構に着想を得て, 学習用ブレンドサップとスキンフィールドによる表現・ポーズ関連変形を表現した。
本手法は,最先端の手法と比較して,幾何性を改善し,より完全な表現空間をカバーできることを定量的かつ定性的に示す。
論文 参考訳(メタデータ) (2021-12-14T15:30:32Z) - Image-to-Video Generation via 3D Facial Dynamics [78.01476554323179]
静止画像から様々な映像を生成するために多目的モデルであるFaceAnimeを提案する。
私たちのモデルは、顔ビデオや顔ビデオの予測など、さまざまなAR/VRやエンターテイメントアプリケーションに汎用的です。
論文 参考訳(メタデータ) (2021-05-31T02:30:11Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。