論文の概要: MLQE-PE: A Multilingual Quality Estimation and Post-Editing Dataset
- arxiv url: http://arxiv.org/abs/2010.04480v3
- Date: Mon, 11 Oct 2021 09:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:22:25.991840
- Title: MLQE-PE: A Multilingual Quality Estimation and Post-Editing Dataset
- Title(参考訳): mlqe-pe:多言語品質推定と編集後データセット
- Authors: Marina Fomicheva, Shuo Sun, Erick Fonseca, Chrysoula Zerva,
Fr\'ed\'eric Blain, Vishrav Chaudhary, Francisco Guzm\'an, Nina Lopatina,
Lucia Specia and Andr\'e F. T. Martins
- Abstract要約: データセットには11の言語ペアが含まれており、人間のラベルは1つの言語ペアに1万の翻訳が可能である。
また、後編集された文章や、文章が抽出された記事のタイトルや、テキストの翻訳に使用されるニューラルMTモデルも含んでいる。
- 参考スコア(独自算出の注目度): 49.602565530704005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MLQE-PE, a new dataset for Machine Translation (MT) Quality
Estimation (QE) and Automatic Post-Editing (APE). The dataset contains eleven
language pairs, with human labels for up to 10,000 translations per language
pair in the following formats: sentence-level direct assessments and
post-editing effort, and word-level good/bad labels. It also contains the
post-edited sentences, as well as titles of the articles where the sentences
were extracted from, and the neural MT models used to translate the text.
- Abstract(参考訳): 本稿では,機械翻訳(MT)品質推定(QE)と自動後編集(APE)のための新しいデータセットであるMLQE-PEを提案する。
データセットには11の言語ペアがあり、文レベルの直接的な評価と後編集作業、単語レベルのグッド/バッドラベルなど、言語ごとに最大10,000の翻訳を行うための人間のラベルが含まれている。
また、後編集された文章や、文章が抽出された記事のタイトルや、テキストの翻訳に使用されるニューラルMTモデルも含んでいる。
関連論文リスト
- A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - FAME-MT Dataset: Formality Awareness Made Easy for Machine Translation Purposes [0.0]
FAME-MT - 15のヨーロッパソース言語と8のヨーロッパターゲット言語の間の1120万の翻訳からなるデータセット。
このデータセットは、マシン翻訳モデルを微調整して、欧州のターゲット言語毎に所定の形式レベルを確保するために使用することができる。
本稿では、データセットを用いて翻訳の形式レベルを判断する概念実証機械翻訳モデルを提案する。
論文 参考訳(メタデータ) (2024-05-20T10:35:30Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - NLPDove at SemEval-2020 Task 12: Improving Offensive Language Detection
with Cross-lingual Transfer [10.007363787391952]
本稿では,攻撃的言語を多言語で識別する手法について述べる。
本研究では,異なるしきい値を持つ半教師付きラベルの追加と,データ選択による言語間移動という2つのデータ拡張戦略について検討する。
われわれの多言語システムはOffensEval 2020でギリシャ語、デンマーク語、トルコ語で競争の結果を得た。
論文 参考訳(メタデータ) (2020-08-04T06:20:50Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。