論文の概要: Quality Does Matter: A Detailed Look at the Quality and Utility of Web-Mined Parallel Corpora
- arxiv url: http://arxiv.org/abs/2402.07446v3
- Date: Fri, 14 Jun 2024 08:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 19:14:16.705108
- Title: Quality Does Matter: A Detailed Look at the Quality and Utility of Web-Mined Parallel Corpora
- Title(参考訳): 品質は重要だ: Web による並列コーパスの品質と実用性
- Authors: Surangika Ranathunga, Nisansa de Silva, Menan Velayuthan, Aloka Fernando, Charitha Rathnayake,
- Abstract要約: 我々は,ウェブマイニングコーパスの異なる部分間で,品質に有意な差異があることを指摘した。
また、Webマイニングされたデータセットでは、最もランクの高い25k部分でトレーニングされたNeural Machine Translation(NMT)モデルが、人間の計算したデータセットと同等であることを示す。
- 参考スコア(独自算出の注目度): 1.0995326465245927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We conducted a detailed analysis on the quality of web-mined corpora for two low-resource languages (making three language pairs, English-Sinhala, English-Tamil and Sinhala-Tamil). We ranked each corpus according to a similarity measure and carried out an intrinsic and extrinsic evaluation on different portions of this ranked corpus. We show that there are significant quality differences between different portions of web-mined corpora and that the quality varies across languages and datasets. We also show that, for some web-mined datasets, Neural Machine Translation (NMT) models trained with their highest-ranked 25k portion can be on par with human-curated datasets.
- Abstract(参考訳): 低リソース言語2言語(英語・シナハラ語・英語・タミル語・シンハラ・タミル語)のウェブマイニングコーパスの品質について詳細な分析を行った。
我々は,各コーパスを類似度尺度で分類し,各コーパスの異なる部分について内在的,外因的評価を行った。
ウェブマイニングコーパスの異なる部分で品質が著しく異なり、言語やデータセットによって品質が変化することを示す。
また、Webマイニングされたデータセットでは、最もランクの高い25k部分でトレーニングされたNeural Machine Translation(NMT)モデルが、人間の計算したデータセットと同等であることを示す。
関連論文リスト
- An Empirical Study on the Robustness of Massively Multilingual Neural Machine Translation [40.08063412966712]
多言語多言語ニューラルマシン翻訳(MMNMT)は低リソース言語の翻訳品質を高めることが証明されている。
インドネシア・中国語翻訳のためのロバストネス評価ベンチマークデータセットを作成する。
このデータセットは、異なるサイズの4つのNLLB-200モデルを使用して、自動的に中国語に翻訳される。
論文 参考訳(メタデータ) (2024-05-13T12:01:54Z) - Do Language Models Care About Text Quality? Evaluating Web-Crawled
Corpora Across 11 Languages [11.512925610019474]
我々は、最も関連性の高いWebクローラコーパスのうち4つを、11の低リソースのヨーロッパ言語で比較した。
コーパスの品質には明らかな違いがみられ,MaCoCuとOSCARが最適結果を得た。
我々は,本実験において,Webcrawled corporaの品質は,LMのトレーニングにおいて重要な役割を果たさないと結論づけた。
論文 参考訳(メタデータ) (2024-03-13T16:56:33Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - A Shocking Amount of the Web is Machine Translated: Insights from Multi-Way Parallelism [9.212370563134206]
ウェブ上のコンテンツは、しばしば多くの言語に翻訳されることを示し、これらのマルチウェイ翻訳の低品質は、機械翻訳(MT)を用いて作成された可能性が高いことを示している。
また、多くの言語に翻訳されるコンテンツの種類の選択バイアスの証拠も見出され、低品質の英語コンテンツがMTを介して多くの低リソース言語に翻訳されるのと一致している。
私たちの研究は、Webから取り除かれたモノリンガルデータとバイリンガルデータの両方について、多言語大言語モデルのようなトレーニングモデルに関する深刻な懸念を提起します。
論文 参考訳(メタデータ) (2024-01-11T08:56:13Z) - What's In My Big Data? [67.04525616289949]
大規模なテキストコーパスの内容を明らかにするためのプラットフォームと16の分析セットであるWIMBD(What's In My Big Data?)を提案する。
WIMBDは2つの基本的な機能 – カウントとサーチ – を大規模に構築することで,標準的な計算ノード上で35テラバイト以上を解析することが可能になります。
これらのコーパスについて, 重複, 合成, 品質の低下など, 意外かつ未発表の発見がいくつか見出された。
論文 参考訳(メタデータ) (2023-10-31T17:59:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets [21.375943264243144]
5つの主要な公開データセットでリリースした205言語固有のコーパスの品質を手作業で監査する。
以上の結果から,少なくとも15コーパスは完全に誤用され,50%未満の品質の文を含むことが明らかとなった。
これらの問題は,対象言語の非話者でも容易に検出でき,自動解析による人間の判断を補うことができることを示す。
論文 参考訳(メタデータ) (2021-03-22T17:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。