論文の概要: OT-Talk: Animating 3D Talking Head with Optimal Transportation
- arxiv url: http://arxiv.org/abs/2505.01932v2
- Date: Sat, 10 May 2025 19:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 12:10:05.916367
- Title: OT-Talk: Animating 3D Talking Head with Optimal Transportation
- Title(参考訳): OT-Talk: 最適な交通手段を備えた3Dトーキングヘッドのアニメーション
- Authors: Xinmu Wang, Xiang Gao, Xiyun Song, Heather Yu, Zongfang Lin, Liang Peng, Xianfeng Gu,
- Abstract要約: OT-Talkは、音声ヘッドアニメーションの学習モデルを最適化するために最適なトランスポートを利用する最初のアプローチである。
既存の学習フレームワークに基づいて,事前学習したHubertモデルを用いて音声特徴を抽出し,変換器モデルを用いて時間的シーケンスを処理する。
2つの公開オーディオ・メシュ・データセットに対する実験により,本手法が最先端技術より優れていることを示す。
- 参考スコア(独自算出の注目度): 20.023346831300373
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Animating 3D head meshes using audio inputs has significant applications in AR/VR, gaming, and entertainment through 3D avatars. However, bridging the modality gap between speech signals and facial dynamics remains a challenge, often resulting in incorrect lip syncing and unnatural facial movements. To address this, we propose OT-Talk, the first approach to leverage optimal transportation to optimize the learning model in talking head animation. Building on existing learning frameworks, we utilize a pre-trained Hubert model to extract audio features and a transformer model to process temporal sequences. Unlike previous methods that focus solely on vertex coordinates or displacements, we introduce Chebyshev Graph Convolution to extract geometric features from triangulated meshes. To measure mesh dissimilarities, we go beyond traditional mesh reconstruction errors and velocity differences between adjacent frames. Instead, we represent meshes as probability measures and approximate their surfaces. This allows us to leverage the sliced Wasserstein distance for modeling mesh variations. This approach facilitates the learning of smooth and accurate facial motions, resulting in coherent and natural facial animations. Our experiments on two public audio-mesh datasets demonstrate that our method outperforms state-of-the-art techniques both quantitatively and qualitatively in terms of mesh reconstruction accuracy and temporal alignment. In addition, we conducted a user perception study with 20 volunteers to further assess the effectiveness of our approach.
- Abstract(参考訳): オーディオ入力を用いた3Dヘッドメッシュのアニメーションは、3Dアバターを介してAR/VR、ゲーム、エンターテイメントに重要な応用をもたらす。
しかし、音声信号と顔のダイナミックスの間のモダリティギャップを埋めることは依然として困難であり、しばしば誤った唇の同期と不自然な顔の動きをもたらす。
そこで本研究では,対話型ヘッドアニメーションにおける学習モデルの最適化に最適なトランスポートを利用するための最初のアプローチであるOT-Talkを提案する。
既存の学習フレームワークに基づいて,事前学習したHubertモデルを用いて音声特徴を抽出し,変換器モデルを用いて時間的シーケンスを処理する。
頂点座標や変位にのみ焦点をあてる従来の手法とは異なり、三角メッシュから幾何学的特徴を抽出するためにチェビシェフグラフ畳み込みを導入する。
メッシュの相違を測定するために、従来のメッシュ再構成エラーと隣接するフレーム間の速度差を超越する。
代わりに、メッシュを確率測度として表現し、その表面を近似する。
これにより、メッシュのバリエーションをモデル化するためにスライスしたWasserstein距離を利用することができます。
このアプローチはスムーズで正確な顔の動きの学習を促進し、一貫性と自然な顔のアニメーションをもたらす。
提案手法は,メッシュ再構成精度と時間的アライメントの両面で,最先端技術よりも定量的かつ質的に優れていることを示す。
さらに,20名のボランティアによるユーザ認知調査を実施し,アプローチの有効性について検討した。
関連論文リスト
- Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion [91.54433928140816]
本稿では、画像生成分野からの拡散手法を導入し、効率的な顔行動生成を実現する顔行動拡散(FAD)を提案する。
さらに,話者の視覚情報と音声情報の両方を入力として扱えるように設計された,効率的なリスナーネットワーク(ELNet)を構築した。
提案手法は,FADとELNetを考慮し,効果的な顔の動き表現を学習し,最先端の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-29T12:08:02Z) - KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer [26.567649613966974]
Graph Latent Transformerに基づく音声駆動型3次元顔アニメーションモデル
GLDiTalkerは、量子化された時間潜在空間内の信号を拡散することで、不一致を解消する。
Graph-Enhanced Space Quantized Learning Stageはリップ同期の精度を保証し、Space-Time Powered Latent Diffusion Stageは動きの多様性を高める。
論文 参考訳(メタデータ) (2024-08-03T17:18:26Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Learning Landmarks Motion from Speech for Speaker-Agnostic 3D Talking
Heads Generation [9.242997749920498]
本稿では,生音声入力から3次元音声頭を生成する新しい手法を提案する。
3D音声ヘッド生成におけるランドマークの使用は、一貫性、信頼性、手動アノテーションの必要性の回避など、さまざまなメリットを提供する。
論文 参考訳(メタデータ) (2023-06-02T10:04:57Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - MeshTalk: 3D Face Animation from Speech using Cross-Modality
Disentanglement [142.9900055577252]
本研究では,顔全体の映像合成を高度に実現するための汎用的な音声駆動顔アニメーション手法を提案する。
このアプローチは、目のまばたきやまばたきなど、音声信号とは無関係な顔の一部のアニメーションを再現すると同時に、高精度な唇の動きを保証します。
論文 参考訳(メタデータ) (2021-04-16T17:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。