論文の概要: A Japanese-Chinese Parallel Corpus Using Crowdsourcing for Web Mining
- arxiv url: http://arxiv.org/abs/2405.09017v1
- Date: Wed, 15 May 2024 00:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 14:45:30.658809
- Title: A Japanese-Chinese Parallel Corpus Using Crowdsourcing for Web Mining
- Title(参考訳): クラウドソーシングによる日中パラレルコーパスによるWebマイニング
- Authors: Masaaki Nagata, Makoto Morishita, Katsuki Chousa, Norihito Yasuda,
- Abstract要約: バイリンガルWebサイトから4.6万文対の日本語と中国語のパラレルコーパスを作成した。
日本語と中国語のバイリンガル辞書である160K語対を文書と文のアライメントに用いた。
我々は,これらの4.6M文対で訓練されたモデルの翻訳精度と,グローバルWebマイニングの並列コーパスであるCCMatrix (12.4M)の日本語と中国語の文対で訓練されたモデルの翻訳精度を比較した。
- 参考スコア(独自算出の注目度): 20.18032411452028
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Using crowdsourcing, we collected more than 10,000 URL pairs (parallel top page pairs) of bilingual websites that contain parallel documents and created a Japanese-Chinese parallel corpus of 4.6M sentence pairs from these websites. We used a Japanese-Chinese bilingual dictionary of 160K word pairs for document and sentence alignment. We then used high-quality 1.2M Japanese-Chinese sentence pairs to train a parallel corpus filter based on statistical language models and word translation probabilities. We compared the translation accuracy of the model trained on these 4.6M sentence pairs with that of the model trained on Japanese-Chinese sentence pairs from CCMatrix (12.4M), a parallel corpus from global web mining. Although our corpus is only one-third the size of CCMatrix, we found that the accuracy of the two models was comparable and confirmed that it is feasible to use crowdsourcing for web mining of parallel data.
- Abstract(参考訳): クラウドソーシングを用いて、パラレルドキュメントを含むバイリンガルWebサイトの1万以上のURLペア(並列トップページペア)を収集し、これらのWebサイトから日本語と中国語のパラレルコーパスを作成した。
日本語と中国語のバイリンガル辞書である160K語対を文書と文のアライメントに用いた。
次に,日本語と中国語の文ペア1.2万を用いて,統計的言語モデルと単語翻訳確率に基づいて並列コーパスフィルタを訓練した。
我々は,これらの4.6M文対で訓練されたモデルの翻訳精度と,グローバルWebマイニングの並列コーパスであるCCMatrix (12.4M)の日本語と中国語の文対で訓練されたモデルの翻訳精度を比較した。
コーパスのサイズはCCMatrixの3分の1に過ぎなかったが、2つのモデルの精度は同等であり、並列データのWebマイニングにクラウドソーシングを使用することが可能であることを確認した。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [31.203776611871863]
本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。
JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。
我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
論文 参考訳(メタデータ) (2022-02-25T10:52:00Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Samanantar: The Largest Publicly Available Parallel Corpora Collection
for 11 Indic Languages [4.3857077920223295]
Samanantarは、Indic言語で利用可能な最大の並列コーパスコレクションである。
このコレクションには、英語と11のIndic言語の間の合計4970万の文対が含まれている。
論文 参考訳(メタデータ) (2021-04-12T16:18:20Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences [21.43163704217968]
既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
論文 参考訳(メタデータ) (2020-10-17T06:12:25Z) - Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文 参考訳(メタデータ) (2020-09-18T02:38:01Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。