論文の概要: JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus
- arxiv url: http://arxiv.org/abs/2202.12607v1
- Date: Fri, 25 Feb 2022 10:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 15:01:26.982243
- Title: JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus
- Title(参考訳): JParaCrawl v3.0: 大規模な日英パラレルコーパス
- Authors: Makoto Morishita, Chousa Katsuki, Jun Suzuki, Masaaki Nagata
- Abstract要約: 本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。
JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。
我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
- 参考スコア(独自算出の注目度): 30.5155723562167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most current machine translation models are mainly trained with parallel
corpora, and their translation accuracy largely depends on the quality and
quantity of the corpora. Although there are billions of parallel sentences for
a few language pairs, effectively dealing with most language pairs is difficult
due to a lack of publicly available parallel corpora. This paper creates a
large parallel corpus for English-Japanese, a language pair for which only
limited resources are available, compared to such resource-rich languages as
English-German. It introduces a new web-based English-Japanese parallel corpus
named JParaCrawl v3.0. Our new corpus contains more than 21 million unique
parallel sentence pairs, which is more than twice as many as the previous
JParaCrawl v2.0 corpus. Through experiments, we empirically show how our new
corpus boosts the accuracy of machine translation models on various domains.
The JParaCrawl v3.0 corpus will eventually be publicly available online for
research purposes.
- Abstract(参考訳): 現在の機械翻訳モデルは、主に並列コーパスで訓練されており、その翻訳精度はコーパスの品質と量に大きく依存している。
いくつかの言語ペアには何十億もの並列文があるが、公に利用可能な並列コーパスがないため、ほとんどの言語ペアを効果的に扱うのは困難である。
本稿では,英語-ドイツ語のような資源豊富な言語と比較して,限られた資源しか利用できない言語対である英語-日本語の並列コーパスを作成する。
JParaCrawl v3.0という新しいウェブベースの英語-日本語並列コーパスを導入した。
新しいコーパスには2100万以上のユニークな並列文ペアが含まれており、これは以前のjparacrawl v2.0コーパスの2倍以上である。
実験により,新しいコーパスが様々な領域の機械翻訳モデルの精度をいかに向上させるかを実証的に示す。
jparacrawl v3.0コーパスは最終的に研究目的でオンラインで公開されている。
関連論文リスト
- A Japanese-Chinese Parallel Corpus Using Crowdsourcing for Web Mining [20.18032411452028]
バイリンガルWebサイトから4.6万文対の日本語と中国語のパラレルコーパスを作成した。
日本語と中国語のバイリンガル辞書である160K語対を文書と文のアライメントに用いた。
我々は,これらの4.6M文対で訓練されたモデルの翻訳精度と,グローバルWebマイニングの並列コーパスであるCCMatrix (12.4M)の日本語と中国語の文対で訓練されたモデルの翻訳精度を比較した。
論文 参考訳(メタデータ) (2024-05-15T00:54:40Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - Unsupervised Multilingual Sentence Embeddings for Parallel Corpus Mining [38.10950540247151]
単言語データのみに依存する多言語文の埋め込みを導出する新しい教師なし手法を提案する。
まず、教師なし機械翻訳を用いて合成並列コーパスを作成し、事前訓練された言語間マスキング言語モデル(XLM)を微調整する。
また, 2つの並列コーパスマイニング作業において, バニラXLMよりも22F1ポイント向上した。
論文 参考訳(メタデータ) (2021-05-21T15:39:16Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - PMIndia -- A Collection of Parallel Corpora of Languages of India [10.434922903332415]
インドの主要言語13言語と英語を組み合わせたパラレル文からなる新しい公開コーパス(PMIndia)について述べる。
コーパスには、各言語対について最大56000の文が含まれている。
本稿では,2つの異なる自動文アライメント手法の評価を含むコーパスの構築方法について解説し,初期NMTの結果をコーパスに提示する。
論文 参考訳(メタデータ) (2020-01-27T16:51:39Z) - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文 参考訳(メタデータ) (2019-12-26T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。