論文の概要: MultiTalk: Enhancing 3D Talking Head Generation Across Languages with Multilingual Video Dataset
- arxiv url: http://arxiv.org/abs/2406.14272v1
- Date: Thu, 20 Jun 2024 12:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 13:52:01.117028
- Title: MultiTalk: Enhancing 3D Talking Head Generation Across Languages with Multilingual Video Dataset
- Title(参考訳): MultiTalk: 多言語ビデオデータセットを用いた言語間における3Dトーキングヘッドジェネレーションの強化
- Authors: Kim Sung-Bin, Lee Chae-Yeon, Gihun Son, Oh Hyun-Bin, Janghoon Ju, Suekyeong Nam, Tae-Hyun Oh,
- Abstract要約: 多様な言語の音声から3D音声の頭部を生成する新しいタスクを提案する。
我々は,20言語で420時間以上の会話ビデオからなる,多言語2Dビデオデータセットを新たに収集した。
多言語設定におけるリップシンクの精度を評価するための指標を提案する。
- 参考スコア(独自算出の注目度): 14.026893125215912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies in speech-driven 3D talking head generation have achieved convincing results in verbal articulations. However, generating accurate lip-syncs degrades when applied to input speech in other languages, possibly due to the lack of datasets covering a broad spectrum of facial movements across languages. In this work, we introduce a novel task to generate 3D talking heads from speeches of diverse languages. We collect a new multilingual 2D video dataset comprising over 420 hours of talking videos in 20 languages. With our proposed dataset, we present a multilingually enhanced model that incorporates language-specific style embeddings, enabling it to capture the unique mouth movements associated with each language. Additionally, we present a metric for assessing lip-sync accuracy in multilingual settings. We demonstrate that training a 3D talking head model with our proposed dataset significantly enhances its multilingual performance. Codes and datasets are available at https://multi-talk.github.io/.
- Abstract(参考訳): 近年の音声駆動型3次元音声ヘッド生成の研究は, 音声調音において有意な成果を上げている。
しかし、他の言語の入力音声に適用した場合、正確なリップシンクを生成することは、おそらく言語間での顔の動きの幅広い範囲をカバーするデータセットが欠如しているため、劣化する。
本研究では,多様な言語の音声から3D音声の頭部を生成する新しいタスクを提案する。
我々は,20言語で420時間以上の会話ビデオからなる,多言語2Dビデオデータセットを新たに収集した。
提案したデータセットでは,言語固有のスタイルの埋め込みを組み込んだ多言語拡張モデルが提案され,各言語に関連する独特の口の動きを捉えることができる。
さらに,多言語設定におけるリップシンクの精度を評価する指標を提案する。
提案したデータセットを用いて3次元音声ヘッドモデルのトレーニングを行うことで,多言語性能が著しく向上することが実証された。
コードとデータセットはhttps://multi-talk.github.io/.com/で公開されている。
関連論文リスト
- VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization [20.728919218746363]
VQTalkerは、ベクトル量子化に基づく多言語音声ヘッド生成フレームワークである。
我々のアプローチは、人間の発話は有限個の異なる音の単位からなるという音素原理に基づいている。
VQTalkerは、ビデオ駆動と音声駆動の両方のシナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-13T06:14:57Z) - Multilingual Turn-taking Prediction Using Voice Activity Projection [25.094622033971643]
本稿では,音声対話における音声活動予測モデルである音声活動予測(VAP)の多言語データへの適用について検討する。
その結果, ある言語で訓練された単言語VAPモデルでは, 他の言語に適用してもよい予測が得られないことが示唆された。
3つの言語すべてでトレーニングされた多言語モデルは、すべての言語にわたるモノリンガルモデルと同等の予測性能を示す。
論文 参考訳(メタデータ) (2024-03-11T07:50:29Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - XNLI 2.0: Improving XNLI dataset and performance on Cross Lingual
Understanding (XLU) [0.0]
我々は、XNLIに存在する14の言語すべてでMNLIデータセットを再翻訳することで、元のXNLIデータセットの改善に注力する。
また、15言語すべてでモデルを訓練し、自然言語推論のタスクでそれらの性能を分析する実験を行った。
論文 参考訳(メタデータ) (2023-01-16T17:24:57Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - Improved acoustic word embeddings for zero-resource languages using
multilingual transfer [37.78342106714364]
我々は、ラベル付きデータに対する複数の良質な言語からの単一の教師付き埋め込みモデルを訓練し、それを目に見えないゼロ・リソース言語に適用する。
本稿では,3つのマルチリンガルリカレントニューラルネットワーク(RNN)モデルについて考察する。全ての訓練言語の連接語彙に基づいて訓練された分類器,複数言語から同一語と異なる単語を識別する訓練されたシームズRNN,単語ペアを再構成する訓練された対応オートエンコーダ(CAE)RNNである。
これらのモデルは、ゼロリソース言語自体で訓練された最先端の教師なしモデルよりも優れており、平均精度が30%以上向上している。
論文 参考訳(メタデータ) (2020-06-02T12:28:34Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。