論文の概要: LTA-L2S: Lexical Tone-Aware Lip-to-Speech Synthesis for Mandarin with Cross-Lingual Transfer Learning
- arxiv url: http://arxiv.org/abs/2509.25670v1
- Date: Tue, 30 Sep 2025 02:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.982631
- Title: LTA-L2S: Lexical Tone-Aware Lip-to-Speech Synthesis for Mandarin with Cross-Lingual Transfer Learning
- Title(参考訳): LTA-L2S: 言語間変換学習を用いたマンダリンの語彙的トーン対応リップ・トゥ・音声合成
- Authors: Kang Yang, Yifan Liang, Fangkun Liu, Zhenping Xie, Chengshi Zheng,
- Abstract要約: マンダリンに対するLTA-L2S(Lexical Tone-Aware Lip-to-Speech)を提案する。
本モデルは,英語の事前学習型音声視覚自己教師学習(SSL)モデルを言語間移動学習戦略により適用する。
実験では、LTA-L2Sは、音声の明瞭度と声調精度の両方において、既存の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 17.450358796576225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip-to-speech (L2S) synthesis for Mandarin is a significant challenge, hindered by complex viseme-to-phoneme mappings and the critical role of lexical tones in intelligibility. To address this issue, we propose Lexical Tone-Aware Lip-to-Speech (LTA-L2S). To tackle viseme-to-phoneme complexity, our model adapts an English pre-trained audio-visual self-supervised learning (SSL) model via a cross-lingual transfer learning strategy. This strategy not only transfers universal knowledge learned from extensive English data to the Mandarin domain but also circumvents the prohibitive cost of training such a model from scratch. To specifically model lexical tones and enhance intelligibility, we further employ a flow-matching model to generate the F0 contour. This generation process is guided by ASR-fine-tuned SSL speech units, which contain crucial suprasegmental information. The overall speech quality is then elevated through a two-stage training paradigm, where a flow-matching postnet refines the coarse spectrogram from the first stage. Extensive experiments demonstrate that LTA-L2S significantly outperforms existing methods in both speech intelligibility and tonal accuracy.
- Abstract(参考訳): マンダリンのL2S合成は、複雑なビセメ・音素マッピングと語彙音の可知性における重要な役割によって妨げられる重要な課題である。
この問題に対処するため,LTA-L2S(Lexical Tone-Aware Lip-to-Speech)を提案する。
ビセメ対音素の複雑さに対処するため、我々のモデルは、英語の事前学習された音声-視覚的自己教師学習(SSL)モデルを言語間移動学習戦略により適応する。
この戦略は、広範な英語データから学んだ普遍的な知識をマンダリン領域に転送するだけでなく、そのようなモデルをゼロからトレーニングすることの禁止的なコストを回避している。
語彙のトーンをモデル化し,インテリジェンスを高めるために,フローマッチングモデルを用いてF0輪郭を生成する。
この生成プロセスは、重要な上層情報を含むASR微調整SSL音声ユニットによって誘導される。
次に、全体的な音声品質を2段階の訓練パラダイムで向上させ、フローマッチングポストネットが第1段階から粗いスペクトログラムを洗練させる。
LTA-L2Sは音声の明瞭度と音節の精度の両方において既存の手法よりも優れていた。
関連論文リスト
- Session-Level Spoken Language Assessment with a Multimodal Foundation Model via Multi-Target Learning [8.717610965852037]
音声言語アセスメント(SLA)は、学習者の発話能力を自然発話から推定する。
本稿では,セッションレベル評価を単一パスで行う,新しいマルチモーダル基礎モデルを提案する。
論文 参考訳(メタデータ) (2025-09-19T14:33:05Z) - ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - CCL-XCoT: An Efficient Cross-Lingual Knowledge Transfer Method for Mitigating Hallucination Generation [23.610002725335313]
MLLM(Large Language Models)は、言語全体にわたる強力な一般化を示すが、特に低リソース言語では幻覚の傾向にある。
MLLMにおける幻覚を緩和するための2段階の微調整フレームワークであるCCL-XCoTを提案する。
実験の結果,CCL-XCoTは幻覚率を最大62%削減し,言語ペア間の知識伝達を大幅に改善した。
論文 参考訳(メタデータ) (2025-07-17T14:25:24Z) - A dual task learning approach to fine-tune a multilingual semantic speech encoder for Spoken Language Understanding [12.887586659035497]
自己指導型学習は、音声言語理解のための発話を効率的に表現するために広く利用されている。
テキストSSLモデルは言語に依存しないセマンティクスを符号化するために提案されている。
SAMU-XLSRフレームワークはこの意味情報を多言語音声表現の強化に用いた。
論文 参考訳(メタデータ) (2024-06-17T23:07:53Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Incorporating L2 Phonemes Using Articulatory Features for Robust Speech
Recognition [2.8360662552057323]
本研究は,韓国語音素を指すL2音素の効率的な組み込みについて,音声特徴分析を用いて検討した。
格子のない最大相互情報(LF-MMI)の目的をエンドツーエンドに使い、音響モデルを訓練し、複数の発音候補のうちの1つを調整・予測する。
実験結果から,提案手法は韓国語L2音声のASR精度をL1音声データのみに基づく訓練により向上させることが示された。
論文 参考訳(メタデータ) (2023-06-05T01:55:33Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。