論文の概要: Tagarela - A Portuguese speech dataset from podcasts
- arxiv url: http://arxiv.org/abs/2603.15326v1
- Date: Mon, 16 Mar 2026 14:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.423517
- Title: Tagarela - A Portuguese speech dataset from podcasts
- Title(参考訳): Tagarela - ポッドキャストからのポルトガル語音声データセット
- Authors: Frederico Santos de Oliveira, Lucas Rafael Stefanel Gris, Alef Iury Siqueira Ferreira, Augusto Seben da Rosa, Alexandre Costa Ferro Filho, Edresson Casanova, Christopher Dane Shulby, Rafael Teixeira Sousa, Diogo Fernandes Costa Silva, Anderson da Silva Soares, Arlindo Rodrigues Galvão Filho,
- Abstract要約: 本稿では,8,972時間以上のポッドキャスト音声で構成されたTAGARELAという新しいデータセットを提案する。
データ品質を確保するため、コーパスはオーディオ前処理パイプラインの対象となり、その後混合戦略を用いて書き起こされた。
この新たな資源の有効性を検証するため,我々のデータセットに特化して訓練されたASRおよびTSモデルを提示し,その性能を評価する。
- 参考スコア(独自算出の注目度): 32.28056892535881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in speech processing, Portuguese remains under-resourced due to the scarcity of public, large-scale, and high-quality datasets. To address this gap, we present a new dataset, named TAGARELA, composed of over 8,972 hours of podcast audio, specifically curated for training automatic speech recognition (ASR) and text-to-speech (TTS) models. Notably, its scale rivals English's GigaSpeech (10kh), enabling state-of-the-art Portuguese models. To ensure data quality, the corpus was subjected to an audio pre-processing pipeline and subsequently transcribed using a mixed strategy: we applied ASR models that were previously trained on high-fidelity transcriptions generated by proprietary APIs, ensuring a high level of initial accuracy. Finally, to validate the effectiveness of this new resource, we present ASR and TTS models trained exclusively on our dataset and evaluate their performance, demonstrating its potential to drive the development of more robust and natural speech technologies for Portuguese. The dataset is released publicly, available at https://freds0.github.io/TAGARELA/, to foster the development of robust speech technologies.
- Abstract(参考訳): 音声処理の大幅な進歩にもかかわらず、ポルトガルは、公共、大規模、高品質なデータセットの不足により、未公開のままである。
このギャップに対処するために,8,972時間以上のポッドキャスト音声からなるTAGARELAという新しいデータセットを提案する。
特筆すべきは、その規模はイギリスのGigaSpeech (10kh)と競合し、最先端のポルトガルのモデルを可能にすることである。
データ品質を確保するため、コーパスはオーディオ前処理パイプラインの対象となり、その後、混合戦略を用いて書き起こされる:我々は以前プロプライエタリなAPIによって生成された高忠実な書き起こしをトレーニングしたASRモデルを適用し、高いレベルの初期精度を確保した。
最後に、この新たなリソースの有効性を検証するために、我々のデータセットに専用に訓練されたASRおよびTSモデルを提示し、その性能を評価し、ポルトガル語のためのより堅牢で自然な音声技術の開発を促進する可能性を示す。
このデータセットは、堅牢な音声技術の開発を促進するために、https://freds0.github.io/TAGARELA/で公開されている。
関連論文リスト
- PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - Large Language Model Data Generation for Enhanced Intent Recognition in German Speech [14.788624194380825]
音声コマンドのインテント認識(IR)は人工知能(AI)アシスタントシステムに不可欠である。
本稿では,高齢者のドイツ語音声を微調整したWhisper ASRモデルを組み合わせた新しい手法を提案する。
合成音声をテキスト音声モデルで生成し、広範囲なクロスデータセットテストを行う。
論文 参考訳(メタデータ) (2025-08-08T12:54:09Z) - IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS [0.9092013845117769]
IndicVoices-R (IV-R) は、ASRデータセットから派生したインド最大の多言語TSデータセットである。
IV-Rは、LJ、Speech LibriTTS、IndicTTSといったゴールドスタンダードのTSデータセットの品質と一致する。
私たちは、22の公用語すべてを対象とした最初のTSモデルをリリースします。
論文 参考訳(メタデータ) (2024-09-09T06:28:47Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。