論文の概要: A Pilot Study of GSLM-based Simulation of Foreign Accentuation Only Using Native Speech Corpora
- arxiv url: http://arxiv.org/abs/2407.11370v1
- Date: Tue, 16 Jul 2024 04:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 18:32:32.336911
- Title: A Pilot Study of GSLM-based Simulation of Foreign Accentuation Only Using Native Speech Corpora
- Title(参考訳): ネイティブ音声コーパスのみを用いたGSLMによる外国人アクセントのシミュレーションに関する実験的検討
- Authors: Kentaro Onda, Joonyong Park, Nobuaki Minematsu, Daisuke Saito,
- Abstract要約: 生成音声言語モデル(GSLM)を用いた外国人アクセントの人的プロセスのシミュレーション手法を提案する。
我々は、言語Aの音声を言語BのGSLMに入力し、Bのアクセントを入力音声に加えることで、このプロセスをシミュレートする。
実験の結果,L1がBである話者が生成したAの実際のサンプルと比較すると,出力音声の合成アクセントは非常に自然であることがわかった。
- 参考スコア(独自算出の注目度): 11.258333083479828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method of simulating the human process of foreign accentuation using Generative Spoken Language Model (GSLM) only with native speech corpora. When one listens to spoken words of a foreign language and repeats them, the repeated speech is often with the accent of that listener's L1. This is said to be because the spoken words are mentally represented as a sequence of phonological units of the L1, and those units are used for oral reproduction. We simulate this process by inputting speech of language A into GSLM of language B to add B's accent onto the input speech. The process of running ASR of the L1 for foreign input speech and giving the ASR result to TTS of the L1 can be viewed as a naive implementation of this approach. The results of our experiments show that the synthesized accent of the output speech is highly natural, compared to real samples of A generated by speakers whose L1 is B, and that the degree of accentuation is controllable.
- Abstract(参考訳): 生成音声言語モデル (GSLM) を母語コーパスのみを用いて, 外国語アクセントの人為的過程をシミュレーションする手法を提案する。
外国語の話し言葉を聴き、それを繰り返すと、その聞き手のL1のアクセントで繰り返される。
これは、音声単語がL1の音韻的単位の列として精神的に表現され、これらの単位が口頭再生に使用されるためとされる。
我々は、言語Aの音声を言語BのGSLMに入力し、Bのアクセントを入力音声に加えることで、このプロセスをシミュレートする。
外部入力音声に対してL1のASRを実行し、L1のTSにASR結果を与えるプロセスは、このアプローチの素直な実装と見なすことができる。
実験の結果,L1がBの話者が生成したAの実際のサンプルと比較すると,音声の合成アクセントは極めて自然であり,アクセントの程度は制御可能であることがわかった。
関連論文リスト
- Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - How Generative Spoken Language Modeling Encodes Noisy Speech:
Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。
本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文 参考訳(メタデータ) (2023-06-01T14:07:19Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Cross-lingual Text-To-Speech with Flow-based Voice Conversion for
Improved Pronunciation [11.336431583289382]
本稿では,エンドツーエンドの言語間テキスト合成手法を提案する。
本来の話者の言語によらず、対象言語の発音を維持することを目的としている。
論文 参考訳(メタデータ) (2022-10-31T12:44:53Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - On Prosody Modeling for ASR+TTS based Voice Conversion [82.65378387724641]
音声変換において、最新の音声変換チャレンジ(VCC)2020における有望な結果を示すアプローチは、まず、ソース音声を基礎となる言語内容に書き起こすために、自動音声認識(ASR)モデルを使用することである。
このようなパラダイムはASR+TTSと呼ばれ、音声の自然性と変換の類似性において重要な役割を果たす韻律のモデル化を見落としている。
本稿では,ターゲットテキスト予測(TTP)と呼ばれる,ターゲット話者に依存した言語表現から直接韻律を予測することを提案する。
論文 参考訳(メタデータ) (2021-07-20T13:30:23Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Transfer Learning from Monolingual ASR to Transcription-free
Cross-lingual Voice Conversion [0.0]
言語間音声変換は、ソース話者とターゲット話者が異なる言語で話す間、同じ内容のターゲット音声を合成することを目的としたタスクである。
本稿では,モノリン言語ASRから言語間VCへの知識伝達に着目した。
外国語音声の書き起こしや言語固有の知識を必要とせず,言語間VCの対応に成功している。
論文 参考訳(メタデータ) (2020-09-30T13:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。