論文の概要: DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages
- arxiv url: http://arxiv.org/abs/2205.12215v1
- Date: Tue, 24 May 2022 17:22:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 17:18:15.470349
- Title: DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages
- Title(参考訳): DivEMT: ティポロジ的多言語間のニューラルネットワーク翻訳作業
- Authors: Gabriele Sarti, Arianna Bisazza, Ana Guerberof Arenas, Antonio Toral
- Abstract要約: DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
- 参考スコア(独自算出の注目度): 5.367993194110256
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce DivEMT, the first publicly available post-editing study of
Neural Machine Translation (NMT) over a typologically diverse set of target
languages. Using a strictly controlled setup, 18 professional translators were
instructed to translate or post-edit the same set of English documents into
Arabic, Dutch, Italian, Turkish, Ukrainian, and Vietnamese. During the process,
their edits, keystrokes, editing times, pauses, and perceived effort were
recorded, enabling an in-depth, cross-lingual evaluation of NMT quality and its
post-editing process. Using this new dataset, we assess the impact on
translation productivity of two state-of-the-art NMT systems, namely: Google
Translate and the open-source multilingual model mBART50. We find that, while
post-editing is consistently faster than translation from scratch, the
magnitude of its contribution varies largely across systems and languages,
ranging from doubled productivity in Dutch and Italian to marginal gains in
Arabic, Turkish and Ukrainian, for some of the evaluated modalities. Moreover,
the observed cross-language variability appears to partly reflect source-target
relatedness and type of target morphology, while remaining hard to predict even
based on state-of-the-art automatic MT quality metrics. We publicly release the
complete dataset, including all collected behavioural data, to foster new
research on the ability of state-of-the-art NMT systems to generate text in
typologically diverse languages.
- Abstract(参考訳): DivEMTはニューラルネットワーク翻訳(NMT)の最初の公開後研究で、タイプ的・多種多様なターゲット言語に対して導入される。
厳格に制御された設定を用いて、18人の専門翻訳者が同じ英語文書をアラビア語、オランダ語、イタリア語、トルコ語、ウクライナ語、ベトナム語に翻訳または編集するよう指示された。
プロセス中、それらの編集、キーストローク、編集時間、一時停止、認識された労力を記録し、NMTの品質とその後処理の詳細な言語間評価を可能にした。
この新しいデータセットを用いて、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
ポスト編集は、スクラッチからの翻訳よりも一貫して速いが、その貢献の大きさは、オランダ語とイタリア語の2倍の生産性から、アラビア語、トルコ語、ウクライナ語の限界的な向上まで、システムや言語によって大きく異なる。
さらに、観測された言語間の変動は、部分的にはソース・ターゲット関連性とターゲット形態のタイプを反映しているが、最先端の自動MT品質指標に基づいても予測は困難である。
我々は、すべての行動データを含む完全なデータセットを公開し、タイポロジーに多様性のある言語でテキストを生成する最先端のNTTシステムの能力に関する新たな研究を促進する。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - An Empirical Study on the Robustness of Massively Multilingual Neural Machine Translation [40.08063412966712]
多言語多言語ニューラルマシン翻訳(MMNMT)は低リソース言語の翻訳品質を高めることが証明されている。
インドネシア・中国語翻訳のためのロバストネス評価ベンチマークデータセットを作成する。
このデータセットは、異なるサイズの4つのNLLB-200モデルを使用して、自動的に中国語に翻訳される。
論文 参考訳(メタデータ) (2024-05-13T12:01:54Z) - Cross-lingual neural fuzzy matching for exploiting target-language
monolingual corpora in computer-aided translation [0.0]
本稿では,ドメイン内ターゲット言語(TL)モノリンガルコーパスの活用を目的とした,新しいニューラルアプローチを提案する。
本手法は,TL単言語コーパスから翻訳提案を検索するための言語間文の埋め込みと,後処理を推定するためのニューラルモデルに頼っている。
本稿では,これらの手法を4つの言語ペア上で自動評価することにより,TMベースのCAT環境におけるモノリンガルテキストの活用に成功していることを示す。
論文 参考訳(メタデータ) (2024-01-16T14:00:28Z) - An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。