論文の概要: VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis
- arxiv url: http://arxiv.org/abs/2507.06060v1
- Date: Tue, 08 Jul 2025 15:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.241175
- Title: VisualSpeaker: Visually-Guided 3D Avatar Lip Synthesis
- Title(参考訳): VisualSpeaker:ビジュアルガイド付き3Dアバターリップ合成
- Authors: Alexandre Symeonidis-Herzig, Özge Mercanoğlu Sincan, Richard Bowden,
- Abstract要約: 視覚音声認識によって教師される写真リアルな微分可能レンダリングを用いてギャップを埋める新しい手法であるVisualSpeakerを提案する。
我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して3Dガウス・スプティング・アバターレンダリングを通過させることによって得られる、知覚的な唇読影損失である。
MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
- 参考スコア(独自算出の注目度): 70.76837748695841
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Realistic, high-fidelity 3D facial animations are crucial for expressive avatar systems in human-computer interaction and accessibility. Although prior methods show promising quality, their reliance on the mesh domain limits their ability to fully leverage the rapid visual innovations seen in 2D computer vision and graphics. We propose VisualSpeaker, a novel method that bridges this gap using photorealistic differentiable rendering, supervised by visual speech recognition, for improved 3D facial animation. Our contribution is a perceptual lip-reading loss, derived by passing photorealistic 3D Gaussian Splatting avatar renders through a pre-trained Visual Automatic Speech Recognition model during training. Evaluation on the MEAD dataset demonstrates that VisualSpeaker improves both the standard Lip Vertex Error metric by 56.1% and the perceptual quality of the generated animations, while retaining the controllability of mesh-driven animation. This perceptual focus naturally supports accurate mouthings, essential cues that disambiguate similar manual signs in sign language avatars.
- Abstract(参考訳): リアルで高忠実な3D顔アニメーションは、人間とコンピュータの相互作用とアクセシビリティにおいて、表現力のあるアバターシステムにとって不可欠である。
以前の手法は有望な品質を示すが、メッシュドメインへの依存は、2Dコンピュータビジョンやグラフィックで見られる急速な視覚革新を完全に活用する能力を制限している。
本研究では,このギャップを3次元顔のアニメーション改善のために,視覚音声認識によって教師されるフォトリアリスティックな微分可能レンダリングを用いて橋渡しするVisualSpeakerを提案する。
我々の貢献は、訓練中に訓練済みの視覚自動音声認識モデルを通して、フォトリアリスティックな3Dガウススプラッティングアバターレンダリングを渡すことによって得られる、知覚的な唇読影損失である。
MEADデータセットの評価は、VisualSpeakerが標準のLip Vertex Errorメトリックを56.1%改善し、生成されたアニメーションの知覚的品質を向上し、メッシュ駆動アニメーションの制御性を維持していることを示している。
この知覚的焦点は、手話のアバターで類似した手話のサインを曖昧にするための重要な手がかりである、正確な口調を自然にサポートする。
関連論文リスト
- SmartAvatar: Text- and Image-Guided Human Avatar Generation with VLM AI Agents [91.26239311240873]
SmartAvatarは視覚言語によるアニメーション対応の3Dアバターを生成するためのフレームワークである。
重要なイノベーションは、エージェントがドラフトアバターを描画する自動検証ループである。
生成されたアバターは完全にリグされ、一貫したアイデンティティと外観で操作をサポートする。
論文 参考訳(メタデータ) (2025-06-05T03:49:01Z) - EVA: Expressive Virtual Avatars from Multi-view Videos [51.33851869426057]
本稿では,アクター固有の,完全に制御可能な,表現力のある人間のアバターフレームワークであるExpressive Virtual Avatars (EVA)を紹介する。
EVAは、表情、身体の動き、手の動きの独立的な制御を可能にしながら、高忠実でライフライクなレンダリングをリアルタイムで実現している。
この研究は、完全に乾燥可能なデジタル人間モデルに向けた大きな進歩を示している。
論文 参考訳(メタデータ) (2025-05-21T11:22:52Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - DEGAS: Detailed Expressions on Full-Body Gaussian Avatars [13.683836322899953]
顔表情の豊かなフルボディアバターに対する3次元ガウススティング(3DGS)に基づくモデリング手法であるDEGASを提案する。
本稿では,2次元の顔と3次元のアバターのギャップを埋めて,2次元の肖像画にのみ訓練された潜在空間を採用することを提案する。
論文 参考訳(メタデータ) (2024-08-20T06:52:03Z) - Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert [13.60808166889775]
口唇の動きを正確に生成するための音声駆動型3次元顔アニメーション法を提案する。
この損失は、音声駆動の3D顔アニメーターを訓練し、音声書き起こしと整合した可塑性な唇の動きを生成するためのガイダンスを提供する。
提案手法の有効性を広範に検証し, 唇同期性能と唇可読性性能を顕著に改善した。
論文 参考訳(メタデータ) (2024-07-01T07:39:28Z) - Attention-Based VR Facial Animation with Visual Mouth Camera Guidance
for Immersive Telepresence Avatars [19.70403947793871]
本稿では,マウスカメラのキーポイントと直接視覚誘導を併用したハイブリッド手法を提案する。
提案手法は,未知の演算子に一般化され,短いビデオ2本をキャプチャして簡単なエンロラメントステップのみを必要とする。
我々は、ANAアバターXPRIZEファイナルでの勝利に顔のアニメーションがどう貢献したかを強調した。
論文 参考訳(メタデータ) (2023-12-15T12:45:11Z) - FaceXHuBERT: Text-less Speech-driven E(X)pressive 3D Facial Animation
Synthesis Using Self-Supervised Speech Representation Learning [0.0]
FaceXHuBERTは、テキストレス音声駆動の3D顔アニメーション生成方法である。
背景雑音に対して非常に頑丈で、様々な状況で録音された音声を処理できる。
アニメーションの写実性に関しては78%の精度で優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-09T17:05:19Z) - Pixel Codec Avatars [99.36561532588831]
Pixel Codec Avatars(PiCA)は、3D人間の顔の深い生成モデルです。
oculus quest 2のモバイルvrヘッドセットでは、同じシーンで5つのアバターがリアルタイムでレンダリングされる。
論文 参考訳(メタデータ) (2021-04-09T23:17:36Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。