論文の概要: CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset
- arxiv url: http://arxiv.org/abs/2509.14161v1
- Date: Wed, 17 Sep 2025 16:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.923217
- Title: CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset
- Title(参考訳): CS-FLEURS:多言語・コード変換音声データセット
- Authors: Brian Yan, Injy Hamed, Shuichiro Shimizu, Vasista Lodagala, William Chen, Olga Iakovenko, Bashar Talafha, Amir Hussein, Alexander Polok, Kalvin Chang, Dominik Klement, Sara Althubaiti, Puyuan Peng, Matthew Wiesner, Thamar Solorio, Ahmed Ali, Sanjeev Khudanpur, Shinji Watanabe, Chih-Chen Chen, Zhen Wu, Karim Benharrak, Anuj Diwan, Samuele Cornell, Eunjung Yeo, Kwanghee Choi, Carlos Carvalho, Karen Rosero,
- Abstract要約: CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。
CS-FLEURSはまた、16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供している。
- 参考スコア(独自算出の注目度): 99.0507412649934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present CS-FLEURS, a new dataset for developing and evaluating code-switched speech recognition and translation systems beyond high-resourced languages. CS-FLEURS consists of 4 test sets which cover in total 113 unique code-switched language pairs across 52 languages: 1) a 14 X-English language pair set with real voices reading synthetically generated code-switched sentences, 2) a 16 X-English language pair set with generative text-to-speech 3) a 60 {Arabic, Mandarin, Hindi, Spanish}-X language pair set with the generative text-to-speech, and 4) a 45 X-English lower-resourced language pair test set with concatenative text-to-speech. Besides the four test sets, CS-FLEURS also provides a training set with 128 hours of generative text-to-speech data across 16 X-English language pairs. Our hope is that CS-FLEURS helps to broaden the scope of future code-switched speech research. Dataset link: https://huggingface.co/datasets/byan/cs-fleurs.
- Abstract(参考訳): CS-FLEURSは,ハイリソース言語以外のコードスイッチト音声認識および翻訳システムの開発と評価のための新しいデータセットである。
CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。
1) 合成生成したコード変更文を実際の音声で読む14のX字言語対。
2) 生成テキスト音声を用いた16のX字対
3) 生成文を合成した60のアラビア語, マンダリン, ヒンディー語, スペイン語)-X言語対, そして
4) コンカニカルテキスト対音声による45の低リソース言語ペアテストセット。
4つのテストセットに加えて、CS-FLEURSは16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供する。
我々の希望は、CS-FLEURSが将来のコード変更音声研究の範囲を広げることである。
データセットリンク:https://huggingface.co/datasets/byan/cs-fleurs
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - SONAR: Sentence-Level Multimodal and Language-Agnostic Representations [22.744544108288274]
本稿では,新しい多言語および多モーダルな文埋め込み空間であるSONARを紹介する。
200の言語をカバーする1つのテキストエンコーダは、既存の文埋め込みよりも大幅に優れています。
音声セグメントを同じSONAR埋め込み空間に埋め込むには、教師-学生が音声書き起こしデータに基づいて訓練した言語固有の音声エンコーダを使用する。
論文 参考訳(メタデータ) (2023-08-22T14:25:15Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - The Multilingual TEDx Corpus for Speech Recognition and Translation [30.993199499048824]
音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。
コーパスはTEDxの8つのソース言語による音声録音のコレクションである。
テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
論文 参考訳(メタデータ) (2021-02-02T21:16:25Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。