論文の概要: Revisiting Speech-Lip Alignment: A Phoneme-Aware Speech Encoder for Robust Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2504.05803v2
- Date: Sat, 20 Sep 2025 08:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.636524
- Title: Revisiting Speech-Lip Alignment: A Phoneme-Aware Speech Encoder for Robust Talking Head Synthesis
- Title(参考訳): 音声ライプアライメントの再検討:ロバスト音声合成のための音素認識音声エンコーダ
- Authors: Yihuan Huang, Jiajun Liu, Yanzhen Ren, Wuyang Liu, Zongkun Sun,
- Abstract要約: 本稿では,音素-音素-音素対応を明示する音素認識型音声エンコーダ(PASE)を提案する。
実験の結果,PASEはNeRFと3DGSのレンダリングモデルの両方で最先端の性能を実現していることがわかった。
- 参考スコア(独自算出の注目度): 29.75505426508964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-driven talking head synthesis tasks commonly use general acoustic features as guided speech features. However, we discovered that these features suffer from phoneme-viseme alignment ambiguity, which refers to the uncertainty and imprecision in matching phonemes with visemes. To overcome this limitation, we propose a phoneme-aware speech encoder (PASE) that explicitly enforces accurate phoneme-viseme correspondence. PASE first captures fine-grained speech and visual features, then introduces a prediction-reconstruction task to improve robustness under noise and modality absence. Furthermore, a phoneme-level alignment module guided by phoneme embeddings and contrastive learning ensures discriminative audio and visual alignment. Experimental results show that PASE achieves state-of-the-art performance in both NeRF and 3DGS rendering models. Its lip sync accuracy improves by 13.7% and 14.2% compared to the acoustic feature, producing results close to the ground truth videos.
- Abstract(参考訳): 音声駆動音声ヘッド合成タスクは、一般的に一般的な音響特徴を誘導音声特徴として利用する。
しかし,これらの特徴は音素・音素・音素・音素・音素の一致の曖昧さに悩まされていることがわかった。
この制限を克服するために,音素対応音声エンコーダ(PASE)を提案する。
PASEはまず、きめ細かい音声と視覚的特徴を捉え、その後、ノイズやモダリティの欠如による堅牢性を改善するための予測再構成タスクを導入する。
さらに、音素レベルのアライメントモジュールを音素埋め込みとコントラスト学習でガイドすることで、識別的オーディオと視覚的アライメントが保証される。
実験の結果,PASEはNeRFと3DGSのレンダリングモデルの両方で最先端の性能を実現していることがわかった。
リップシンク精度は音響特性に比べて13.7%と14.2%向上し、真理ビデオに近い結果が得られる。
関連論文リスト
- Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics [14.290468730787772]
音声信号と3次元顔メッシュの複雑な対応をキャプチャする音声-メシュ同期表現を提案する。
実験の結果, 知覚的損失を伴う3次元音声音声生成モデルの訓練は, 知覚的に正確な唇同期の3つの側面を著しく改善することがわかった。
論文 参考訳(メタデータ) (2025-03-26T08:18:57Z) - NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing [16.47490478732181]
本稿では,音響的帰納バイアスを微分可能な音声生成成分と統合したエンドツーエンドフレームワークを提案する。
具体的には、合成音声の韻律変化を捉えるための基本周波数予測器(F0)を導入する。
提案手法は, 話者特性を明示的にモデル化することなく, 話者類似性に対する良好な性能を実現する。
論文 参考訳(メタデータ) (2025-02-17T16:40:23Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting
Self-Supervised Representations [13.995231731152462]
本稿では,Lip-to-Speech合成のためのモジュール化フレームワークRobustL2Sを提案する。
非自己回帰列列列モデルは、自己教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。
ボコーダは、音声特徴を生波形に変換する。
論文 参考訳(メタデータ) (2023-07-03T09:13:57Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。