論文の概要: SpeechTaxi: On Multilingual Semantic Speech Classification
- arxiv url: http://arxiv.org/abs/2409.06372v1
- Date: Tue, 10 Sep 2024 09:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 18:19:52.455015
- Title: SpeechTaxi: On Multilingual Semantic Speech Classification
- Title(参考訳): SpeechTaxi:多言語セマンティック音声分類について
- Authors: Lennart Keller, Goran Glavaš,
- Abstract要約: SpeechTaxiは、聖書の意味音声分類のための80時間多言語データセットである。
MSEは言語間移動能力に乏しいようで、E2Eは(1)訓練で見えない言語へのゼロショット転送、(2)多言語訓練、すなわち複数の言語での共同訓練の両方でCAを著しく遅れている。
我々は,言語に依存しない中間表現として,ローマ字文への書き起こしに基づく新しいCAアプローチを考案し,ネイティブなASRサポートを持たない言語に対する堅牢な解であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in multilingual speech encoding as well as transcription raise the question of the most effective approach to semantic speech classification. Concretely, can (1) end-to-end (E2E) classifiers obtained by fine-tuning state-of-the-art multilingual speech encoders (MSEs) match or surpass the performance of (2) cascading (CA), where speech is first transcribed into text and classification is delegated to a text-based classifier. To answer this, we first construct SpeechTaxi, an 80-hour multilingual dataset for semantic speech classification of Bible verses, covering 28 diverse languages. We then leverage SpeechTaxi to conduct a wide range of experiments comparing E2E and CA in monolingual semantic speech classification as well as in cross-lingual transfer. We find that E2E based on MSEs outperforms CA in monolingual setups, i.e., when trained on in-language data. However, MSEs seem to have poor cross-lingual transfer abilities, with E2E substantially lagging CA both in (1) zero-shot transfer to languages unseen in training and (2) multilingual training, i.e., joint training on multiple languages. Finally, we devise a novel CA approach based on transcription to Romanized text as a language-agnostic intermediate representation and show that it represents a robust solution for languages without native ASR support. Our SpeechTaxi dataset is publicly available at: https://huggingface.co/ datasets/LennartKeller/SpeechTaxi/.
- Abstract(参考訳): 近年の多言語音声符号化の進歩と書き起こしは、意味音声分類における最も効果的なアプローチの疑問を提起している。
具体的には、(1)最先端の多言語音声エンコーダ(MSE)を微調整して得られるエンドツーエンド(E2E)分類器を、(2)カスケード(CA)の性能に適合させるか、又は超過させることで、まず音声をテキストに書き起こし、分類をテキストベース分類器に委譲することができる。
そこで我々はまず,28の多言語を対象とする,聖書の意味的音声分類のための80時間多言語データセットであるSpeechTaxiを構築した。
次に、SpeechTaxiを用いて、単言語意味音声分類や言語間移動において、E2EとCAを比較した幅広い実験を行う。
MSEをベースとしたE2Eは、言語内データでトレーニングされた場合、単言語的な設定でCAを上回っている。
しかし、MSEは言語間移動能力が劣っているようで、E2Eは(1)訓練で見えない言語へのゼロショット転送と(2)多言語訓練、すなわち複数の言語での共同訓練の両方でCAを大幅に遅れている。
最後に, 言語に依存しない中間表現として, ローマ字文への書き起こしに基づく新しいCAアプローチを考案し, ネイティブなASRサポートを持たない言語に対する堅牢な解であることを示す。
SpeechTaxiデータセットは、https://huggingface.co/ datasets/LennartKeller/SpeechTaxi/で公開されています。
関連論文リスト
- Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。