論文の概要: A High-Quality and Large-Scale Dataset for English-Vietnamese Speech
Translation
- arxiv url: http://arxiv.org/abs/2208.04243v1
- Date: Mon, 8 Aug 2022 16:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:09:06.912164
- Title: A High-Quality and Large-Scale Dataset for English-Vietnamese Speech
Translation
- Title(参考訳): 英語-ベトナム語音声翻訳のための高品質・大規模データセット
- Authors: Linh The Nguyen, Nguyen Luong Tran, Long Doan, Manh Luong, Dat Quoc
Nguyen
- Abstract要約: 本稿では,508時間音声を用いた英語-ベトナム語音声翻訳のための高品質で大規模なベンチマークデータセットを提案する。
我々の知る限りでは、これは初めて大規模な英語-ベトナム語音声翻訳研究である。
- 参考スコア(独自算出の注目度): 17.35935715147861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a high-quality and large-scale benchmark dataset
for English-Vietnamese speech translation with 508 audio hours, consisting of
331K triplets of (sentence-lengthed audio, English source transcript sentence,
Vietnamese target subtitle sentence). We also conduct empirical experiments
using strong baselines and find that the traditional "Cascaded" approach still
outperforms the modern "End-to-End" approach. To the best of our knowledge,
this is the first large-scale English-Vietnamese speech translation study. We
hope both our publicly available dataset and study can serve as a starting
point for future research and applications on English-Vietnamese speech
translation. Our dataset is available at https://github.com/VinAIResearch/PhoST
- Abstract(参考訳): 本稿では,英語-ベトナム語音声翻訳のための高品質で大規模なベンチマークデータセットを,331Kの331K(文長音声,英文転写文,ベトナム語目標字幕文)からなる508時間で導入する。
また、強いベースラインを用いた実証実験を行い、従来の「カスケード」アプローチが現代的な「エンド・ツー・エンド」アプローチよりも優れていることを発見した。
我々の知る限りでは、これは初めて大規模な英語-ベトナム語音声翻訳研究である。
当社の公開データセットと研究が、英語とベトナム語の音声翻訳に関する将来の研究と応用の出発点となることを願っています。
私たちのデータセットはhttps://github.com/VinAIResearch/PhoSTで公開されています。
関連論文リスト
- VlogQA: Task, Dataset, and Baseline Models for Vietnamese Spoken-Based Machine Reading Comprehension [1.3942150186842373]
本稿では,機械読解作業のためのベトナム語音声コーパスの開発過程について述べる。
ベトナムの既存のMRCコーポラは主にウィキペディアの記事、オンライン新聞、教科書などの公式文書に焦点を当てている。
対照的に、VlogQAはYouTubeからソースされた1,230の文書に基づいて10,076の質問応答ペアで構成されている。
論文 参考訳(メタデータ) (2024-02-05T00:54:40Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - PhoMT: A High-Quality and Large-Scale Benchmark Dataset for
Vietnamese-English Machine Translation [6.950742601378329]
3.02M文対のベトナム語-英語並列データセットを高品質かつ大規模に導入する。
これはベトナム語と英語の機械翻訳コーパスIWSLT15より2.9M大きい。
自動・人両方の評価において、事前訓練されたシーケンス・ツー・シーケンス・デノナイズ・オートエンコーダmBARTを微調整することにより、最高の性能が得られる。
論文 参考訳(メタデータ) (2021-10-23T11:42:01Z) - A Pilot Study of Text-to-SQL Semantic Parsing for Vietnamese [11.782566169354725]
ベトナムにおける大規模なテキスト・ソース・セマンティック・パーシング・データセットについて紹介する。
ベトナム語の単語の自動区分けにより,両方のベースラインの構文解析結果が改善されることが判明した。
PhoBERT for Vietnamは、最近の最高の多言語言語モデルXLM-Rよりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-10-05T09:54:51Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。