論文の概要: Cross-Lingual Machine Speech Chain for Javanese, Sundanese, Balinese,
and Bataks Speech Recognition and Synthesis
- arxiv url: http://arxiv.org/abs/2011.02128v1
- Date: Wed, 4 Nov 2020 05:13:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:49:17.673459
- Title: Cross-Lingual Machine Speech Chain for Javanese, Sundanese, Balinese,
and Bataks Speech Recognition and Synthesis
- Title(参考訳): Javanese, Sundanese, Balinese, Bataks音声認識と合成のための言語間機械音声チェイン
- Authors: Sashi Novitasari, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
- Abstract要約: インドネシアの民族言語のための音声認識と合成に焦点をあてる。
まず、標準的なインドネシア人のASRとTSを指導訓練で訓練する。
次に、インドネシアのASRとTSを言語間機械音声連鎖の枠組みで利用し、民族言語のASRとTSを開発する。
- 参考スコア(独自算出の注目度): 25.93405777713522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even though over seven hundred ethnic languages are spoken in Indonesia, the
available technology remains limited that could support communication within
indigenous communities as well as with people outside the villages. As a
result, indigenous communities still face isolation due to cultural barriers;
languages continue to disappear. To accelerate communication, speech-to-speech
translation (S2ST) technology is one approach that can overcome language
barriers. However, S2ST systems require machine translation (MT), speech
recognition (ASR), and synthesis (TTS) that rely heavily on supervised training
and a broad set of language resources that can be difficult to collect from
ethnic communities. Recently, a machine speech chain mechanism was proposed to
enable ASR and TTS to assist each other in semi-supervised learning. The
framework was initially implemented only for monolingual languages. In this
study, we focus on developing speech recognition and synthesis for these
Indonesian ethnic languages: Javanese, Sundanese, Balinese, and Bataks. We
first separately train ASR and TTS of standard Indonesian in supervised
training. We then develop ASR and TTS of ethnic languages by utilizing
Indonesian ASR and TTS in a cross-lingual machine speech chain framework with
only text or only speech data removing the need for paired speech-text data of
those ethnic languages.
- Abstract(参考訳): インドネシアでは700以上の民族言語が話されているが、現地のコミュニティや村外の人々とのコミュニケーションを支援することのできる技術は限られている。
その結果、先住民のコミュニティは文化的障壁のために孤立しており、言語は消え続けている。
コミュニケーションを加速するために、音声音声翻訳技術(S2ST)は言語障壁を克服する1つのアプローチである。
しかし、S2STシステムには、教師付き訓練と民族社会からの収集が困難な幅広い言語資源に大きく依存する機械翻訳(MT)、音声認識(ASR)、合成(TTS)が必要である。
近年,asrとttsが半教師付き学習において相互に支援できる機械音声連鎖機構が提案されている。
このフレームワークは最初、単言語言語のみに実装された。
本研究では,ジャワ人,スンダ人,バリネ人,バタク人といったインドネシアの諸民族の音声認識と合成に焦点をあてる。
まず,標準インドネシアのasrとttsを,監督訓練で個別に訓練した。
次に,インドネシア語 ASR と TTS を,テキストデータと音声データのみを用いた言語間機械音声連鎖フレームワークで活用することにより,民族言語の ASR と TTS を開発した。
関連論文リスト
- Attempt Towards Stress Transfer in Speech-to-Speech Machine Translation [0.0]
インドの教育分野における言語多様性は、インクリシティを阻害する重要な課題となっている。
オンライン教育コンテンツによる知識の民主化にもかかわらず、英語の優位はアクセシビリティを制限している。
既存の音声音声機械翻訳(SSMT)技術にもかかわらず、これらのシステムにおけるイントネーションの欠如は単調な翻訳をもたらす。
本稿では、インド英語のストレスアノテーションを用いたデータセットと、合成音声にストレスを組み込むことのできるテクスチャ・トゥ・スペーチ(TTS)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-07T03:21:19Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Model Adaptation for ASR in low-resource Indian Languages [28.02064068964355]
近年,wav2vec2のような自己教師付き学習(SSL)ベースの音響モデルとWhisperのような大規模多言語学習によって,音声認識(ASR)の性能が大幅に向上している。
オーディオとテキストの両方の可用性が制限されている低リソース言語には、依然として大きな課題があります。
ここで多くの適応と微調整のテクニックが適用され、十分なリソースを持つ類似言語を利用することで、データの低リソースの性質を克服できるのです。
言語における音響データの豊富さによって、大きなテキストのみのコーパスの必要性が軽減される場合もあります。
論文 参考訳(メタデータ) (2023-07-16T05:25:51Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。