Fugu-MT 論文翻訳(概要): A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability

論文の概要: A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability

arxiv url: http://arxiv.org/abs/2211.02499v1
Date: Fri, 4 Nov 2022 14:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 15:58:34.566637
Title: A Weakly-Supervised Streaming Multilingual Speech Model with Truly Zero-Shot Capability
Title（参考訳）: 完全ゼロショット機能を有する弱教師付きマルチリンガル音声モデル
Authors: Jian Xue, Peidong Wang, Jinyu Li, Eric Sun
Abstract要約: Streaming Multilingual Speech Model (SM2) は、複数の言語を対象言語のテキストに書き起こしたり、翻訳することができる。 SM2モデルは、音声認識コーパスの転写を機械翻訳サービスに変換することで、弱い教師付きデータを用いて訓練される。 SM2モデルは、25言語から匿名化された音声訓練データに35万時間を費やしており、最近の一般的な大規模非ストリーミング音声モデルと比較すると、同等またはそれ以上のST品質を実現している。
参考スコア（独自算出の注目度）: 32.524627464837636
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce our work of building a Streaming Multilingual Speech Model (SM2), which can transcribe or translate multiple spoken languages into texts of the target language. The backbone of SM2 is Transformer Transducer, which has high streaming capability. Instead of human labeled speech translation (ST) data, SM2 models are trained using weakly supervised data generated by converting the transcriptions in speech recognition corpora with a machine translation service. With 351 thousand hours of anonymized speech training data from 25 languages, SM2 models achieve comparable or even better ST quality than some recent popular large-scale non-streaming speech models. More importantly, we show that SM2 has the truly zero-shot capability when expanding to new target languages, yielding high quality ST results for {source-speech, target-text} pairs that are not seen during training.
Abstract（参考訳）: 本稿では,複数の言語を対象言語のテキストに書き起こし,翻訳可能なストリーム多言語音声モデル(SM2)の構築について紹介する。 SM2のバックボーンはTransformer Transducerで、高いストリーミング機能を備えている。 SM2モデルは、人間のラベル付き音声翻訳(ST)データの代わりに、音声認識コーパスの転写を機械翻訳サービスに変換して生成した弱い教師付きデータを用いて訓練される。 25の言語から35万時間分の匿名化音声トレーニングデータが得られたsm2モデルは、最近人気の大規模非ストリーミング音声モデルと同等あるいはそれ以上の品質を達成している。より重要なことは、sm2が新しいターゲット言語に拡張する際に真にゼロショット機能を持っていることを示し、トレーニング中に見られない{source-speech, target-text}ペアに対して高品質なst結果をもたらす。

関連論文リスト

Zero-resource Speech Translation and Recognition with LLMs [38.11535502039386]
我々は,ペア音声テキストデータを見たことのない言語において,多言語大言語モデル(LLM)を用いてSTとASRを実行することを提案する。我々は、事前訓練された多言語音声エンコーダ、多言語LLM、およびLLMのトークン埋め込み空間に音声表現をマッピングする軽量適応モジュールを用いて、これを実現する。
論文参考訳（メタデータ） (2024-12-24T17:37:11Z)
GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文参考訳（メタデータ） (2024-06-17T13:44:20Z)
MSLM-S2ST: A Multitask Speech Language Model for Textless Speech-to-Speech Translation with Speaker Style Preservation [45.558316325252335]
マルチタスク音声言語モデル(Multitask Speech Language Model、MSLM)は、マルチタスク設定で訓練されたデコーダのみの音声言語モデルである。我々のモデルは、話者スタイルを保存した多言語S2STをサポートすることができる。
論文参考訳（メタデータ） (2024-03-19T03:35:20Z)
Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文参考訳（メタデータ） (2023-09-14T09:52:08Z)
SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。 FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文参考訳（メタデータ） (2023-08-22T17:44:18Z)
Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文参考訳（メタデータ） (2023-08-03T15:47:04Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文参考訳（メタデータ） (2023-05-19T13:43:36Z)
Joint Pre-Training with Speech and Bilingual Text for Direct Speech to Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文参考訳（メタデータ） (2022-10-31T02:55:51Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。