論文の概要: A Bridge from Audio to Video: Phoneme-Viseme Alignment Allows Every Face to Speak Multiple Languages
- arxiv url: http://arxiv.org/abs/2510.06612v1
- Date: Wed, 08 Oct 2025 03:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.284533
- Title: A Bridge from Audio to Video: Phoneme-Viseme Alignment Allows Every Face to Speak Multiple Languages
- Title(参考訳): 音声からビデオへのブリッジ:Phoneme-Visemeのアライメントですべての顔が複数の言語を話せる
- Authors: Zibo Su, Kun Wei, Jiahua Li, Xu Yang, Cheng Deng,
- Abstract要約: 音声による会話顔合成(TFS)は、音声入力から顔のアニメーションを生成することに焦点を当てている。
現在のモデルは英語ではうまく機能するが、英語以外の言語では不満足に機能し、間違った口の形と堅い表情を生み出している。
我々は,Phoneme-Guided Mixture-of-Expertsアーキテクチャを特徴とする新しいフレームワークであるMultilingual Experts (MuEx)を提案する。
- 参考スコア(独自算出の注目度): 60.81571443992153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-driven talking face synthesis (TFS) focuses on generating lifelike facial animations from audio input. Current TFS models perform well in English but unsatisfactorily in non-English languages, producing wrong mouth shapes and rigid facial expressions. The terrible performance is caused by the English-dominated training datasets and the lack of cross-language generalization abilities. Thus, we propose Multilingual Experts (MuEx), a novel framework featuring a Phoneme-Guided Mixture-of-Experts (PG-MoE) architecture that employs phonemes and visemes as universal intermediaries to bridge audio and video modalities, achieving lifelike multilingual TFS. To alleviate the influence of linguistic differences and dataset bias, we extract audio and video features as phonemes and visemes respectively, which are the basic units of speech sounds and mouth movements. To address audiovisual synchronization issues, we introduce the Phoneme-Viseme Alignment Mechanism (PV-Align), which establishes robust cross-modal correspondences between phonemes and visemes. In addition, we build a Multilingual Talking Face Benchmark (MTFB) comprising 12 diverse languages with 95.04 hours of high-quality videos for training and evaluating multilingual TFS performance. Extensive experiments demonstrate that MuEx achieves superior performance across all languages in MTFB and exhibits effective zero-shot generalization to unseen languages without additional training.
- Abstract(参考訳): 音声駆動音声合成(TFS)は、音声入力からライフスタイルの顔アニメーションを生成することに焦点を当てている。
現在のTFSモデルは英語ではうまく機能するが、英語以外の言語では満足できない。
この恐ろしいパフォーマンスは、英語が支配するトレーニングデータセットと、言語間の一般化能力の欠如によって引き起こされる。
そこで我々は,音声とビデオのモダリティを橋渡しし,ライフスタイルのマルチリンガルTFSを実現するために,音素とビセムをユニバーサルインターメディエータとして利用するPhonme-Guided Mixture-of-Experts (PG-MoE)アーキテクチャを特徴とする新しいフレームワークであるMultilingual Experts (MuEx)を提案する。
言語的差異とデータセットバイアスの影響を軽減するため,音声と映像の特徴をそれぞれ,音声の基本単位である音素とビセムとして抽出する。
本稿では,音素とバイセム間の堅牢な相互対応を実現するPhoneme-Viseme Alignment Mechanism(PV-Align)を提案する。
さらに,12の多様な言語と95.04時間の高品質なビデオを組み合わせたマルチリンガル・トーキング・フェイスベンチマーク(MTFB)を構築し,マルチリンガル・TFSのパフォーマンスを評価した。
大規模な実験により、MuExはMTFBの全ての言語で優れた性能を達成し、追加の訓練をすることなく、目に見えない言語に効果的なゼロショットの一般化を示すことが示された。
関連論文リスト
- TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation [76.48551690189406]
本研究では,マルチショット音声ビデオ生成を支援する大規模データセットであるTalkCutsを提案する。
TalkCutsは、クローズアップ、ハーフボディ、フルボディビューを含む様々なカメラショットを備えた、500時間以上の高品質な人間の音声ビデオクリップを提供する。
このデータセットには、詳細なテキスト記述、2Dキーポイント、3D SMPL-Xモーションアノテーションが含まれ、10k以上のアイデンティティをカバーし、マルチモーダル学習と評価を可能にする。
論文 参考訳(メタデータ) (2025-10-08T17:16:09Z) - PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs [58.2469845374385]
進歩的アライメント表現訓練(PART)について紹介する。
Partは多段階およびマルチタスクのフレームワークで、言語内のアライメントと言語間のアライメントを分離する。
CommonVoice 15の実験では、Fleurs、Wenetspeech、CoVoST2が、Particleが従来のアプローチを上回ることを示している。
論文 参考訳(メタデータ) (2025-09-24T03:54:14Z) - Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation [18.89091877062589]
LanStyleTTS は非自己回帰型言語対応の適応型 TTS フレームワークである。
言語固有のモデルを訓練することなく、正確で高品質な音声を生成することができる統合多言語TSモデルをサポートしている。
論文 参考訳(メタデータ) (2025-04-11T06:12:57Z) - VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization [20.728919218746363]
VQTalkerは、ベクトル量子化に基づく多言語音声ヘッド生成フレームワークである。
我々のアプローチは、人間の発話は有限個の異なる音の単位からなるという音素原理に基づいている。
VQTalkerは、ビデオ駆動と音声駆動の両方のシナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-13T06:14:57Z) - MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup
for Visual Speech Translation and Recognition [51.412413996510814]
視覚音声の訓練を正規化するために音声音声を利用する多目的自己学習フレームワークであるMixSpeechを提案する。
MixSpeechは雑音の多い環境での音声翻訳を強化し、AVMuST-TED上でのBLEUスコアを+1.4から+4.2に改善した。
論文 参考訳(メタデータ) (2023-03-09T14:58:29Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。