論文の概要: Giving Voice to the Constitution: Low-Resource Text-to-Speech for Quechua and Spanish Using a Bilingual Legal Corpus
- arxiv url: http://arxiv.org/abs/2604.13288v1
- Date: Tue, 14 Apr 2026 20:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.292404
- Title: Giving Voice to the Constitution: Low-Resource Text-to-Speech for Quechua and Spanish Using a Bilingual Legal Corpus
- Title(参考訳): 憲法への声 - バイリンガル法体を用いたケチュア語とスペイン語の低音源テキスト音声
- Authors: John E. Ortega, Rodolfo Zevallos, Fabricio Carraro,
- Abstract要約: ペルー憲法のための高品質なケチュア語とスペイン語のスピーチを合成するための統一パイプラインを提示する。
我々のモデルは、異質なサイズと記録条件を持つ独立スペイン語およびケチュア音声データセットに基づいて訓練されている。
- 参考スコア(独自算出の注目度): 4.813909873640095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a unified pipeline for synthesizing high-quality Quechua and Spanish speech for the Peruvian Constitution using three state-of-the-art text-to-speech (TTS) architectures: XTTS v2, F5-TTS, and DiFlow-TTS. Our models are trained on independent Spanish and Quechua speech datasets with heterogeneous sizes and recording conditions, and leverage bilingual and multilingual TTS capabilities to improve synthesis quality in both languages. By exploiting cross-lingual transfer, our framework mitigates data scarcity in Quechua while preserving naturalness in Spanish. We release trained checkpoints, inference code, and synthesized audio for each constitutional article, providing a reusable resource for speech technologies in indigenous and multilingual contexts. This work contributes to the development of inclusive TTS systems for political and legal content in low-resource settings.
- Abstract(参考訳): XTTS v2, F5-TTS, DiFlow-TTSの3つの最先端テキスト音声(TTS)アーキテクチャを用いて, 高品質なケチュア音声とスペイン語音声を合成するための統一パイプラインを提案する。
我々のモデルは、異種のサイズと記録条件を持つ独立スペイン語およびケチュア音声データセットに基づいて訓練されており、両言語間の合成品質を改善するために、バイリンガルおよび多言語TS機能を活用している。
言語間の移動を生かして,ケチュアにおけるデータ不足を軽減し,スペイン語の自然性を維持した。
本研究は,言語・言語環境における音声技術のための再利用可能な資源として,学習されたチェックポイント,推論コード,各構成項目の合成音声をリリースする。
この研究は、低リソース環境での政治的および法的コンテンツに対する包括的TTSシステムの開発に寄与する。
関連論文リスト
- Speech-to-Text Translation with Phoneme-Augmented CoT: Enhancing Cross-Lingual Transfer in Low-Resource Scenarios [10.920534445874322]
本稿では,音素表現をChain-of-Thoughtフレームワークに統合した音声テキスト翻訳(S2TT)手法を提案する。
中間段階として音素認識を導入することで、言語間変換を強化し、ラベル付き音声データを持たない言語でも翻訳が可能となる。
論文 参考訳(メタデータ) (2025-05-30T15:15:00Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク
我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。
音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文 参考訳(メタデータ) (2023-06-05T15:53:15Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文 参考訳(メタデータ) (2020-10-16T03:51:00Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。