論文の概要: Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech Translation
- arxiv url: http://arxiv.org/abs/2505.15333v1
- Date: Wed, 21 May 2025 10:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.434234
- Title: Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech Translation
- Title(参考訳): 音声合成における単位言語指導の活用
- Authors: Yuhao Zhang, Xiangnan Ma, Kaiqi Kou, Peizhuo Liu, Weiqiao Shan, Benyou Wang, Tong Xiao, Yuxin Huang, Zhengtao Yu, Jingbo Zhu,
- Abstract要約: 本稿では,2つのモデリング課題を克服する単位言語を提案する。
単位言語はテキストのような表現形式とみなすことができる。
我々は,音声モデリングプロセスの指導に単位言語を利用するために,マルチタスク学習を実装した。
- 参考スコア(独自算出の注目度): 48.769137497536
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The success of building textless speech-to-speech translation (S2ST) models has attracted much attention. However, S2ST still faces two main challenges: 1) extracting linguistic features for various speech signals, called cross-modal (CM), and 2) learning alignment of difference languages in long sequences, called cross-lingual (CL). We propose the unit language to overcome the two modeling challenges. The unit language can be considered a text-like representation format, constructed using $n$-gram language modeling. We implement multi-task learning to utilize the unit language in guiding the speech modeling process. Our initial results reveal a conflict when applying source and target unit languages simultaneously. We propose task prompt modeling to mitigate this conflict. We conduct experiments on four languages of the Voxpupil dataset. Our method demonstrates significant improvements over a strong baseline and achieves performance comparable to models trained with text.
- Abstract(参考訳): テキストなし音声音声翻訳(S2ST)モデルの構築の成功は注目されている。
しかし、S2STは依然として2つの大きな課題に直面している。
1)クロスモーダル(CM)という,様々な音声信号の言語的特徴の抽出
2) 交叉言語 (CL) という,長いシーケンスで異なる言語のアライメントを学習すること。
本稿では,2つのモデリング課題を克服する単位言語を提案する。
単位言語は、$n$-gram言語モデリングを用いて構築されたテキストのような表現形式と見なすことができる。
我々は,音声モデリングプロセスの指導に単位言語を利用するために,マルチタスク学習を実装した。
最初の結果から,ソース言語とターゲット言語を同時に適用する場合の矛盾が明らかになった。
この対立を緩和するタスクプロンプトモデリングを提案する。
我々は,Voxpupilデータセットの4言語について実験を行った。
提案手法は,強力なベースラインよりも大幅に向上し,テキストで訓練したモデルに匹敵する性能を実現する。
関連論文リスト
- Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation [18.89091877062589]
LanStyleTTS は非自己回帰型言語対応の適応型 TTS フレームワークである。
言語固有のモデルを訓練することなく、正確で高品質な音声を生成することができる統合多言語TSモデルをサポートしている。
論文 参考訳(メタデータ) (2025-04-11T06:12:57Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。