論文の概要: A Set of Recommendations for Assessing Human-Machine Parity in Language
Translation
- arxiv url: http://arxiv.org/abs/2004.01694v1
- Date: Fri, 3 Apr 2020 17:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 03:53:42.728043
- Title: A Set of Recommendations for Assessing Human-Machine Parity in Language
Translation
- Title(参考訳): 言語翻訳におけるヒューマンマシンパリティ評価のための一連の推奨
- Authors: Samuel L\"aubli and Sheila Castilho and Graham Neubig and Rico
Sennrich and Qinlan Shen and Antonio Toral
- Abstract要約: 我々は、ハサンらの中国語から英語への翻訳調査を再評価する。
専門家による翻訳では誤りが著しく少なかった。
- 参考スコア(独自算出の注目度): 87.72302201375847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of machine translation has increased remarkably over the past
years, to the degree that it was found to be indistinguishable from
professional human translation in a number of empirical investigations. We
reassess Hassan et al.'s 2018 investigation into Chinese to English news
translation, showing that the finding of human-machine parity was owed to
weaknesses in the evaluation design - which is currently considered best
practice in the field. We show that the professional human translations
contained significantly fewer errors, and that perceived quality in human
evaluation depends on the choice of raters, the availability of linguistic
context, and the creation of reference translations. Our results call for
revisiting current best practices to assess strong machine translation systems
in general and human-machine parity in particular, for which we offer a set of
recommendations based on our empirical findings.
- Abstract(参考訳): 機械翻訳の質はここ数年で著しく向上し、多くの経験的調査で専門家の人間翻訳とは区別がつかないことが判明した。
2018年にhassanらによる中国語と英語のニュース翻訳に関する調査を再検討した結果、人間と機械の同等性の発見は評価設計の弱点によるものであることが判明した。
専門家による人文翻訳では誤りが有意に少なく,評価の質は,格付け者の選択,言語的文脈の可利用性,参照翻訳の作成に左右されることが示された。
本研究の結果は,機械翻訳システム全般,特に人間と機械の相性を評価する上での現在のベストプラクティスを再考し,経験的知見に基づく一連の勧告を提示した。
関連論文リスト
- BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Iterative Translation Refinement with Large Language Models [25.90607157524168]
本稿では,翻訳を自己修正するために,大規模言語モデルを反復的に提案する。
また,評価における課題と,人間のパフォーマンスと翻訳との関係についても論じる。
論文 参考訳(メタデータ) (2023-06-06T16:51:03Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Consistent Human Evaluation of Machine Translation across Language Pairs [21.81895199744468]
本稿では, 意味的等価性に着目したXSTSと呼ばれる新しい計量法と, 言語間キャリブレーション法を提案する。
最大14言語対にわたる大規模評価研究において,これらの新規貢献の有効性を実証する。
論文 参考訳(メタデータ) (2022-05-17T17:57:06Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。