Fugu-MT 論文翻訳(概要): The Multilingual TEDx Corpus for Speech Recognition and Translation

論文の概要: The Multilingual TEDx Corpus for Speech Recognition and Translation

arxiv url: http://arxiv.org/abs/2102.01757v1
Date: Tue, 2 Feb 2021 21:16:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-04 17:34:45.040050
Title: The Multilingual TEDx Corpus for Speech Recognition and Translation
Title（参考訳）: 音声認識と翻訳のための多言語TEDxコーパス
Authors: Elizabeth Salesky, Matthew Wiesner, Jacob Bremerman, Roldano Cattoni, Matteo Negri, Marco Turchi, Douglas W. Oard, Matt Post
Abstract要約: 音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。コーパスはTEDxの8つのソース言語による音声録音のコレクションである。テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
参考スコア（独自算出の注目度）: 30.993199499048824
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present the Multilingual TEDx corpus, built to support speech recognition (ASR) and speech translation (ST) research across many non-English source languages. The corpus is a collection of audio recordings from TEDx talks in 8 source languages. We segment transcripts into sentences and align them to the source-language audio and target-language translations. The corpus is released along with open-sourced code enabling extension to new talks and languages as they become available. Our corpus creation methodology can be applied to more languages than previous work, and creates multi-way parallel evaluation sets. We provide baselines in multiple ASR and ST settings, including multilingual models to improve translation performance for low-resource language pairs.
Abstract（参考訳）: 音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。コーパスはTEDxの8つのソース言語による音声録音のコレクションである。書き起こしを文に分割し、ソース言語音声とターゲット言語翻訳に対応させる。コーパスはオープンソースコードとともにリリースされ、新しい講演や言語の拡張が可能になった。コーパス作成手法は,従来よりも多くの言語に適用でき,マルチウェイ並列評価セットを作成することができる。低リソース言語ペアの翻訳性能を改善するための多言語モデルを含む,複数のASRおよびST設定のベースラインを提供する。

関連論文リスト

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus [0.0]
本稿では,低音源音声合成コーパスであるLoReSpeechの構築手法を提案する。 LoReSpeechは言語内アライメントと言語間アライメントの両方を提供し、多言語ASRシステムの進歩を可能にする。
論文参考訳（メタデータ） (2025-02-25T14:00:15Z)
Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。 Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文参考訳（メタデータ） (2024-07-01T09:51:48Z)
Fine-Tuned Self-Supervised Speech Representations for Language Diarization in Multilingual Code-Switched Speech [4.39549503760707]
大規模自己教師型アーキテクチャ(WavLM)から抽出した微調整音声表現を用いた連続多言語ダイアリザを開発した。南アフリカ語5言語(isiZulu, isiXa, Seswana, Sesotho, English)からなるコード交換コーパスを実験した。
論文参考訳（メタデータ） (2023-12-15T09:40:41Z)
Towards a Deep Understanding of Multilingual End-to-End Speech Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。我々は分析から3つの大きな発見を得た。
論文参考訳（メタデータ） (2023-10-31T13:50:55Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages [20.25236081418051]
Zambezi Voiceはザンビア語のためのオープンソースの多言語音声リソースである。我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
論文参考訳（メタデータ） (2023-06-07T13:36:37Z)
ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-11-07T13:35:16Z)
Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文参考訳（メタデータ） (2021-05-09T14:49:07Z)
Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。本手法は3つの主流データセットで検証する。
論文参考訳（メタデータ） (2020-09-21T10:10:45Z)
CoVoST 2 and Massively Multilingual Speech-to-Text Translation [24.904548615918355]
CoVoST 2は、21の言語から英語、および15の言語への翻訳をカバーする大規模な多言語音声翻訳コーパスである。これは、トータルボリュームと言語カバレッジの観点から、現在利用可能な最大のオープンデータセットである。
論文参考訳（メタデータ） (2020-07-20T17:53:35Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。