論文の概要: SpeechMatrix: A Large-Scale Mined Corpus of Multilingual
Speech-to-Speech Translations
- arxiv url: http://arxiv.org/abs/2211.04508v1
- Date: Tue, 8 Nov 2022 19:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:33:14.703666
- Title: SpeechMatrix: A Large-Scale Mined Corpus of Multilingual
Speech-to-Speech Translations
- Title(参考訳): speechmatrix:多言語音声から音声への大規模翻訳コーパス
- Authors: Paul-Ambroise Duquenne, Hongyu Gong, Ning Dong, Jingfei Du, Ann Lee,
Vedanuj Goswani, Changhan Wang, Juan Pino, Beno\^it Sagot, Holger Schwenk
- Abstract要約: SpeechMatrixは、音声から音声への翻訳の大規模多言語コーパスである。
136言語対の音声アライメントと、合計418万時間の音声を含む。
- 参考スコア(独自算出の注目度): 38.058120432870126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SpeechMatrix, a large-scale multilingual corpus of
speech-to-speech translations mined from real speech of European Parliament
recordings. It contains speech alignments in 136 language pairs with a total of
418 thousand hours of speech. To evaluate the quality of this parallel speech,
we train bilingual speech-to-speech translation models on mined data only and
establish extensive baseline results on EuroParl-ST, VoxPopuli and FLEURS test
sets. Enabled by the multilinguality of SpeechMatrix, we also explore
multilingual speech-to-speech translation, a topic which was addressed by few
other works. We also demonstrate that model pre-training and sparse scaling
using Mixture-of-Experts bring large gains to translation performance. The
mined data and models are freely available.
- Abstract(参考訳): 欧州議会記録の実際の音声から抽出した音声対音声翻訳の大規模多言語コーパスである speechmatrix を提案する。
136の言語ペアの音声アライメントと、合計418万時間の音声が含まれている。
この並列音声の品質を評価するため、マイニングデータのみに基づいてバイリンガル音声音声合成モデルを訓練し、EuroParl-ST, VoxPopuli, FLEURSテストセット上で広範なベースライン結果を確立する。
また, speechmatrix の多言語性によって実現された多言語音声対音声翻訳についても検討した。
また,Mixture-of-Expertsを用いたモデル事前学習とスパーススケーリングにより,翻訳性能が大きく向上することを示す。
マイニングされたデータとモデルは無料で利用できる。
関連論文リスト
- Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - TranSentence: Speech-to-speech Translation via Language-agnostic
Sentence-level Speech Encoding without Language-parallel Data [44.83532231917504]
TranSentenceは、言語並列音声データを持たない新しい音声から音声への翻訳である。
我々は、言語に依存しない文レベルの音声エンコーダから得られるエンコード埋め込みに基づいて音声を生成するために、我々のモデルを訓練する。
我々はTranSentenceを多言語音声音声翻訳に拡張する。
論文 参考訳(メタデータ) (2024-01-17T11:52:40Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - FT Speech: Danish Parliament Speech Corpus [21.190182627955817]
本稿では,デンマーク議会の会議記録から作成した音声コーパスであるFT Speechを紹介する。
コーパスには、合計434人の話者による1,800時間以上の音声の書き起こしが含まれている。
これは、デンマークの既存の公用語コーパスよりも、持続時間、語彙、自然発話の量において著しく大きい。
論文 参考訳(メタデータ) (2020-05-25T19:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。