論文の概要: Announcing CzEng 2.0 Parallel Corpus with over 2 Gigawords
- arxiv url: http://arxiv.org/abs/2007.03006v1
- Date: Mon, 6 Jul 2020 18:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 02:26:34.749364
- Title: Announcing CzEng 2.0 Parallel Corpus with over 2 Gigawords
- Title(参考訳): 2ギガワード以上のczeng 2.0並列コーパスを発表
- Authors: Tom Kocmi, Martin Popel, Ondrej Bojar
- Abstract要約: 本稿では,チェコ語のパラレルコーパスCzEng 2.0の新たなリリースについて述べる。
コーパスには文書レベルの情報が含まれており、ノイズの量を減らすためにいくつかのテクニックでフィルタリングされる。
- 参考スコア(独自算出の注目度): 12.561914014993675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new release of the Czech-English parallel corpus CzEng 2.0
consisting of over 2 billion words (2 "gigawords") in each language. The corpus
contains document-level information and is filtered with several techniques to
lower the amount of noise. In addition to the data in the previous version of
CzEng, it contains new authentic and also high-quality synthetic parallel data.
CzEng is freely available for research and educational purposes.
- Abstract(参考訳): チェコ英語の並列コーパスczeng 2.0を新たにリリースし,各言語に20億語以上の単語 (2つの"gigawords") を格納した。
コーパスは文書レベルの情報を含み、ノイズの量を減らすためにいくつかのテクニックでフィルタリングされる。
以前のバージョンのCzEngのデータに加えて、新しい認証データと高品質な合成並列データを含んでいる。
CzEngは研究と教育目的で無料で利用できる。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit
to Hindi for Machine Translation [0.0]
コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。
複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
論文 参考訳(メタデータ) (2023-06-27T11:06:44Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - esCorpius: A Massive Spanish Crawling Corpus [2.262838186547612]
esCorpiusはスペインのクロールコーパスで、Common Crawlデータの約1Pbから得られた。
スペイン語で最も広範なコーパスであり、ウェブテキストの内容の抽出、浄化、重複の程度である。
論文 参考訳(メタデータ) (2022-06-30T09:29:18Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [31.203776611871863]
本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。
JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。
我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
論文 参考訳(メタデータ) (2022-02-25T10:52:00Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - KazakhTTS2: Extending the Open-Source Kazakh TTS Corpus With More Data,
Speakers, and Topics [4.859986264602551]
我々は、以前リリースした Kazakh text-to-speech (KazakhTTS) 合成コーパスの拡張版を提示する。
新しいKazakhTTS2コーパスでは、全体的なサイズは93時間から271時間に向上した。
講演者の数は2人から5人(女性3人、男性2人)に増えた。
論文 参考訳(メタデータ) (2022-01-15T06:54:30Z) - ESPnet-ST IWSLT 2021 Offline Speech Translation System [56.83606198051871]
本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。
今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。
私たちの最高のE2Eシステムは、すべてのテクニックをモデルアンサンブルと組み合わせ、31.4BLEUを達成しました。
論文 参考訳(メタデータ) (2021-07-01T17:49:43Z) - CoVoST 2 and Massively Multilingual Speech-to-Text Translation [24.904548615918355]
CoVoST 2は、21の言語から英語、および15の言語への翻訳をカバーする大規模な多言語音声翻訳コーパスである。
これは、トータルボリュームと言語カバレッジの観点から、現在利用可能な最大のオープンデータセットである。
論文 参考訳(メタデータ) (2020-07-20T17:53:35Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。