論文の概要: Kosp2e: Korean Speech to English Translation Corpus
- arxiv url: http://arxiv.org/abs/2107.02875v1
- Date: Tue, 6 Jul 2021 20:34:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 04:21:56.023896
- Title: Kosp2e: Korean Speech to English Translation Corpus
- Title(参考訳): Kosp2e:韓国語から英訳へ
- Authors: Won Ik Cho, Seok Min Kim, Hyunchang Cho, Nam Soo Kim
- Abstract要約: 韓国語音声をエンドツーエンドで英文に翻訳するコーパスであるkosp2eを紹介する。
我々は,オープンライセンス音声認識コーパス,翻訳コーパス,音声言語コーパスを採用して,データセットを一般公開する。
- 参考スコア(独自算出の注目度): 11.44330742875498
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most speech-to-text (S2T) translation studies use English speech as a source,
which makes it difficult for non-English speakers to take advantage of the S2T
technologies. For some languages, this problem was tackled through corpus
construction, but the farther linguistically from English or the more
under-resourced, this deficiency and underrepresentedness becomes more
significant. In this paper, we introduce kosp2e (read as `kospi'), a corpus
that allows Korean speech to be translated into English text in an end-to-end
manner. We adopt open license speech recognition corpus, translation corpus,
and spoken language corpora to make our dataset freely available to the public,
and check the performance through the pipeline and training-based approaches.
Using pipeline and various end-to-end schemes, we obtain the highest BLEU of
21.3 and 18.0 for each based on the English hypothesis, validating the
feasibility of our data. We plan to supplement annotations for other target
languages through community contributions in the future.
- Abstract(参考訳): ほとんどのS2T翻訳研究は英語を情報源として利用しており、非英語話者がS2T技術を利用するのが困難である。
一部の言語では、この問題はコーパスの構築を通じて取り組まれていたが、言語的に英語から遠ざかるほど、その不足と表現不足はより重要になる。
本稿では,韓国語をエンドツーエンドで英文に翻訳可能なコーパスであるkosp2e(kospi)を紹介する。
我々は、オープンライセンス音声認識コーパス、翻訳コーパス、音声言語コーパスを採用し、データセットを自由に公開し、パイプラインおよびトレーニングベースのアプローチでパフォーマンスを確認する。
パイプラインと様々なエンドツーエンドスキームを用いて、英語の仮説に基づいてそれぞれ21.3と18.0の最高BLEUを取得し、データの有効性を検証する。
今後,コミュニティからのコントリビューションを通じて,他のターゲット言語へのアノテーションを補完する予定です。
関連論文リスト
- Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - TranSentence: Speech-to-speech Translation via Language-agnostic
Sentence-level Speech Encoding without Language-parallel Data [44.83532231917504]
TranSentenceは、言語並列音声データを持たない新しい音声から音声への翻訳である。
我々は、言語に依存しない文レベルの音声エンコーダから得られるエンコード埋め込みに基づいて音声を生成するために、我々のモデルを訓練する。
我々はTranSentenceを多言語音声音声翻訳に拡張する。
論文 参考訳(メタデータ) (2024-01-17T11:52:40Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Joint Pre-Training with Speech and Bilingual Text for Direct Speech to
Speech Translation [94.80029087828888]
直接音声音声翻訳 (S2ST) は, カスケードされたS2STと比較して, 優れた研究課題である。
直接S2STは、ソース言語の音声からターゲット言語の音声へのコーパスが非常に稀であるため、データ不足の問題に悩まされる。
本稿では,音声から音声への直接翻訳タスクのための音声とバイリンガルのテキストデータとを事前学習したSpeech2Sモデルを提案する。
論文 参考訳(メタデータ) (2022-10-31T02:55:51Z) - LibriS2S: A German-English Speech-to-Speech Translation Corpus [12.376309678270275]
我々はドイツ語と英語による音声合成訓練コーパスを初めて公開する。
これにより、新しい音声合成モデルと音声合成モデルの作成が可能になる。
本稿では,最近提案されたFastSpeech 2モデルの例に基づくテキスト音声合成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-22T09:33:31Z) - CoVoST 2 and Massively Multilingual Speech-to-Text Translation [24.904548615918355]
CoVoST 2は、21の言語から英語、および15の言語への翻訳をカバーする大規模な多言語音声翻訳コーパスである。
これは、トータルボリュームと言語カバレッジの観点から、現在利用可能な最大のオープンデータセットである。
論文 参考訳(メタデータ) (2020-07-20T17:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。