論文の概要: UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model
- arxiv url: http://arxiv.org/abs/2408.00762v1
- Date: Thu, 1 Aug 2024 17:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 19:37:48.214939
- Title: UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model
- Title(参考訳): UniTalker: 統一モデルによるオーディオ駆動型3D顔アニメーションのスケールアップ
- Authors: Xiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang,
- Abstract要約: さまざまなアノテーションを持つデータセットを活用するために設計されたマルチヘッドアーキテクチャを特徴とする統一モデルUniTalkerを提案する。
トレーニング安定性の向上とマルチヘッド出力の整合性確保のために,PCA,モデルウォームアップ,ピボットIDの埋め込みという3つのトレーニング戦略を採用した。
単一の訓練されたUniTalkerモデルでは、BIWIデータセットでは9.2%、Vocasetでは13.7%の実質的なリップ頂点エラー削減を実現している。
- 参考スコア(独自算出の注目度): 4.443066817473078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven 3D facial animation aims to map input audio to realistic facial motion. Despite significant progress, limitations arise from inconsistent 3D annotations, restricting previous models to training on specific annotations and thereby constraining the training scale. In this work, we present UniTalker, a unified model featuring a multi-head architecture designed to effectively leverage datasets with varied annotations. To enhance training stability and ensure consistency among multi-head outputs, we employ three training strategies, namely, PCA, model warm-up, and pivot identity embedding. To expand the training scale and diversity, we assemble A2F-Bench, comprising five publicly available datasets and three newly curated datasets. These datasets contain a wide range of audio domains, covering multilingual speech voices and songs, thereby scaling the training data from commonly employed datasets, typically less than 1 hour, to 18.5 hours. With a single trained UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker exhibits promise as the foundation model for audio-driven facial animation tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances performance on each dataset, with an average error reduction of 6.3% on A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half the data surpasses prior state-of-the-art models trained on the full dataset. The code and dataset are available at the project page https://github.com/X-niper/UniTalker.
- Abstract(参考訳): 音声駆動の3D顔アニメーションは、入力された音声をリアルな顔の動きにマッピングすることを目的としている。
大幅な進歩にもかかわらず、制約は一貫性のない3Dアノテーションから生じ、以前のモデルを特定のアノテーションのトレーニングに制限し、それによってトレーニングスケールを制限した。
本稿では,様々なアノテーションを持つデータセットを効果的に活用するためのマルチヘッドアーキテクチャを特徴とする統一モデルUniTalkerを提案する。
トレーニング安定性の向上とマルチヘッド出力の整合性確保のために,PCA,モデルウォームアップ,ピボットIDの埋め込みという3つのトレーニング戦略を採用した。
トレーニングの規模と多様性を拡大するため、5つの公開データセットと3つの新たにキュレートされたデータセットからなるA2F-Benchを組み立てました。
これらのデータセットは幅広いオーディオ領域を含み、多言語音声と歌をカバーし、一般的に使用されるデータセットからのトレーニングデータを1時間未満の18.5時間にスケールする。
単一の訓練されたUniTalkerモデルでは、BIWIデータセットでは9.2%、Vocasetでは13.7%の実質的なリップ頂点エラー削減を実現している。
さらに、事前訓練されたUniTalkerは、オーディオ駆動の顔アニメーションタスクの基礎モデルとして約束されている。
トレーニング済みのUniTalkerのデータセットの微調整により、各データセットのパフォーマンスはさらに向上し、平均エラーはA2F-Benchで6.3%低下する。
さらに、全データセットでトレーニングされた以前の最先端モデルを超えるデータの半分しか持たない、目に見えないデータセット上で、微調整のUniTalkerを使用する。
コードとデータセットはプロジェクトページ https://github.com/X-niper/UniTalker.com で公開されている。
関連論文リスト
- Probabilistic Speech-Driven 3D Facial Motion Synthesis: New Benchmarks,
Methods, and Applications [20.842799581850617]
音声信号から3次元顔形状を推定する作業について検討する。
既存の作業は主に決定論的であり、限られた話者を持つ小さなデータセット上で、音声信号から3D顔メッシュへの1対1のマッピングを学ぶことに集中している。
論文 参考訳(メタデータ) (2023-11-30T01:14:43Z) - DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D
Facial Animation [10.73030153404956]
データ利用効率を向上させるために,DualTalkerと呼ばれるクロスモーダルなデュアルラーニングフレームワークを提案する。
このフレームワークは、主要なタスク(オーディオ駆動の顔アニメーション)とその2つのタスク(リップ読み取り)との共同で訓練され、一般的なオーディオ/モーションエンコーダコンポーネントを共有する。
我々の手法は、定性的かつ定量的に現在の最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-11-08T15:39:56Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - An Improved RaftStereo Trained with A Mixed Dataset for the Robust
Vision Challenge 2022 [11.360379033636598]
このレポートでは、堅牢なビジョンチャレンジのために、7つのパブリックデータセットの混合データセットでトレーニングされた改善されたRaftStereoを提示する。
Middlebury、KITTI-2015、ETH3Dのトレーニングセットで評価すると、モデルは1つのデータセットでトレーニングされたデータセットよりも優れています。
ステレオリーダーボードでは2位にランクインし、混合データセットの事前トレーニングのメリットを実証している。
論文 参考訳(メタデータ) (2022-10-23T17:01:34Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - Learning from Multiple Noisy Augmented Data Sets for Better
Cross-Lingual Spoken Language Understanding [69.40915115518523]
トレーニングデータの欠如は、低リソース言語への音声言語理解(SLU)をスケールアウトする上で大きな課題となる。
低リソースターゲット言語でのトレーニングデータを合成するために、様々なデータ拡張手法が提案されている。
本稿では,拡張データにおけるノイズの軽減に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-03T15:44:15Z) - Multi-Task Self-Training for Learning General Representations [97.01728635294879]
マルチタスク・セルフトレーニング(MuST)は、独立した専門教師モデルにおける知識を活用して、一人の一般学生モデルを訓練する。
MuSTはラベルなしまたは部分的にラベル付けされたデータセットでスケーラブルで、大規模データセットのトレーニングにおいて、特別な教師付きモデルとセルフ教師付きモデルの両方を上回っている。
論文 参考訳(メタデータ) (2021-08-25T17:20:50Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。