論文の概要: PASE: Phoneme-Aware Speech Encoder to Improve Lip Sync Accuracy for Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2504.05803v3
- Date: Wed, 15 Oct 2025 09:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.391764
- Title: PASE: Phoneme-Aware Speech Encoder to Improve Lip Sync Accuracy for Talking Head Synthesis
- Title(参考訳): PASE: 音声合成のための音声合成精度向上のための音素認識音声エンコーダ
- Authors: Yihuan Huang, Jiajun Liu, Yanzhen Ren, Jun Xue, Wuyang Liu, Zongkun Sun,
- Abstract要約: PASE(Phoneme-Aware Speech)は,音素と音素のギャップを埋める新しい音声表現モデルである。
実験の結果,PASEはリップシンク精度を大幅に向上し,NeRFおよび3DGSベースのレンダリングフレームワーク間の最先端性能を実現している。
- 参考スコア(独自算出の注目度): 32.43276443363356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent talking head synthesis works typically adopt speech features extracted from large-scale pre-trained acoustic models. However, the intrinsic many-to-many relationship between speech and lip motion causes phoneme-viseme alignment ambiguity, leading to inaccurate and unstable lips. To further improve lip sync accuracy, we propose PASE (Phoneme-Aware Speech Encoder), a novel speech representation model that bridges the gap between phonemes and visemes. PASE explicitly introduces phoneme embeddings as alignment anchors and employs a contrastive alignment module to enhance the discriminability between corresponding audio-visual pairs. In addition, a prediction and reconstruction task is designed to improve robustness under noise and partial modality absence. Experimental results show PASE significantly improves lip sync accuracy and achieves state-of-the-art performance across both NeRF- and 3DGS-based rendering frameworks, outperforming conventional methods based on acoustic features by 13.7 % and 14.2 %, respectively. Importantly, PASE can be seamlessly integrated into diverse talking head pipelines to improve the lip sync accuracy without architectural modifications.
- Abstract(参考訳): 最近の音声ヘッド合成作業は、大規模事前学習音響モデルから抽出された音声特徴を用いるのが一般的である。
しかし、音声と唇の動きの内在的な多対多関係は、音素と音素のアライメントのあいまいさを引き起こし、不正確で不安定な唇を引き起こす。
そこで本研究では,PASE(Phoneme-Aware Speech Encoder)を提案する。
PASEは、アライメントアンカーとして音素埋め込みを明示的に導入し、コントラストアライメントモジュールを使用して、対応するオーディオと視覚のペア間の識別性を向上する。
さらに,雑音下での頑健さと部分的モード不在性を改善するため,予測・復元タスクを設計する。
実験の結果,PASEはリップシンク精度を大幅に向上し,NeRFおよび3DGSベースのレンダリングフレームワーク間の最先端性能を実現し,音響特性に基づく従来の手法をそれぞれ13.7%,14.2%向上させた。
重要なことは、PASEを多様な音声ヘッドパイプラインにシームレスに統合することで、アーキテクチャの変更なしにリップシンク精度を向上させることができる。
関連論文リスト
- Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Perceptually Accurate 3D Talking Head Generation: New Definitions, Speech-Mesh Representation, and Evaluation Metrics [14.290468730787772]
音声信号と3次元顔メッシュの複雑な対応をキャプチャする音声-メシュ同期表現を提案する。
実験の結果, 知覚的損失を伴う3次元音声音声生成モデルの訓練は, 知覚的に正確な唇同期の3つの側面を著しく改善することがわかった。
論文 参考訳(メタデータ) (2025-03-26T08:18:57Z) - NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing [16.47490478732181]
本稿では,音響的帰納バイアスを微分可能な音声生成成分と統合したエンドツーエンドフレームワークを提案する。
具体的には、合成音声の韻律変化を捉えるための基本周波数予測器(F0)を導入する。
提案手法は, 話者特性を明示的にモデル化することなく, 話者類似性に対する良好な性能を実現する。
論文 参考訳(メタデータ) (2025-02-17T16:40:23Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting
Self-Supervised Representations [13.995231731152462]
本稿では,Lip-to-Speech合成のためのモジュール化フレームワークRobustL2Sを提案する。
非自己回帰列列列モデルは、自己教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。
ボコーダは、音声特徴を生波形に変換する。
論文 参考訳(メタデータ) (2023-07-03T09:13:57Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - VisualTTS: TTS with Accurate Lip-Speech Synchronization for Automatic
Voice Over [68.22776506861872]
AVO(Automatic Voice Over)と呼ばれるサイレント事前録音ビデオと同期して音声を合成する新しいタスクを定式化する。
AVOの自然な解決策は、ビデオ中のリップシーケンスの時間的進行に音声レンダリングを条件付けることである。
そこで本稿では,視覚入力を前提とした新しい音声合成モデルVisualTTSを提案する。
論文 参考訳(メタデータ) (2021-10-07T11:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。