論文の概要: Fine Grained Human Evaluation for English-to-Chinese Machine
Translation: A Case Study on Scientific Text
- arxiv url: http://arxiv.org/abs/2110.14766v1
- Date: Mon, 13 Sep 2021 23:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 05:11:18.787511
- Title: Fine Grained Human Evaluation for English-to-Chinese Machine
Translation: A Case Study on Scientific Text
- Title(参考訳): 英語-中国語機械翻訳のための微粒人間による評価:科学テキストを事例として
- Authors: Ming Liu, He Zhang, Guanhao Wu
- Abstract要約: 我々は,4つの中国英語NMTシステムに対して,科学的な抽象概念に基づいて,きめ細かな体系的人間評価を行う。
以上の結果から,全システムは平均10%以上のエラー率で復帰し,実際の学術的利用には多くの編集作業が必要になることがわかった。
- 参考スコア(独自算出の注目度): 16.776811816631696
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research suggests that neural machine translation (MT) in the news
domain has reached human-level performance, but for other professional domains,
it is far below the level. In this paper, we conduct a fine-grained systematic
human evaluation for four widely used Chinese-English NMT systems on scientific
abstracts which are collected from published journals and books. Our human
evaluation results show that all the systems return with more than 10\% error
rates on average, which requires much post editing effort for real academic
use. Furthermore, we categorize six main error types and and provide some real
examples. Our findings emphasise the needs that research attention in the MT
community should be shifted from short text generic translation to professional
machine translation and build large scale bilingual corpus for these specific
domains.
- Abstract(参考訳): 最近の研究によると、ニュースドメインのニューラルマシン翻訳(mt)は人間レベルのパフォーマンスに達しているが、他の専門領域ではレベルをはるかに下回っている。
本稿では,学術誌や書籍から収集した4つの学術論文に広く使用されている中国語・英語のNMTシステムについて,詳細な体系的評価を行う。
人的評価の結果から,すべてのシステムが平均10倍以上のエラー率で復帰し,実際の学術的利用には多くの編集作業が必要になることがわかった。
さらに,6つの主要なエラータイプを分類し,実例を示す。
本研究は,MTコミュニティにおける研究の注意を,短文の汎用翻訳からプロの機械翻訳に移行し,これらのドメインに対して大規模なバイリンガルコーパスを構築することの必要性を強調した。
関連論文リスト
- Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Cross-lingual neural fuzzy matching for exploiting target-language
monolingual corpora in computer-aided translation [0.0]
本稿では,ドメイン内ターゲット言語(TL)モノリンガルコーパスの活用を目的とした,新しいニューラルアプローチを提案する。
本手法は,TL単言語コーパスから翻訳提案を検索するための言語間文の埋め込みと,後処理を推定するためのニューラルモデルに頼っている。
本稿では,これらの手法を4つの言語ペア上で自動評価することにより,TMベースのCAT環境におけるモノリンガルテキストの活用に成功していることを示す。
論文 参考訳(メタデータ) (2024-01-16T14:00:28Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - As Easy as 1, 2, 3: Behavioural Testing of NMT Systems for Numerical
Translation [51.20569527047729]
誤訳された数字は、金銭的損失や医療的誤報などの深刻な影響を引き起こす可能性がある。
本研究では,ニューラルネットワーク翻訳システムの動作テストによる数値テキストへの堅牢性に関する総合的な評価法を開発した。
論文 参考訳(メタデータ) (2021-07-18T04:09:47Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z) - Detecting over/under-translation errors for determining adequacy in
human translations [0.0]
本稿では,翻訳評価における誤りチェックの一部として,OT/UT(Over and Under translations)の新たな手法を提案する。
我々は、機械翻訳(mt)出力に制限はせず、特に人間が生成した翻訳パイプラインでアプリケーションをターゲットにしています。
本システムの目的は、人間の翻訳ビデオ字幕からOT/UTエラーを高いエラーリコールで識別することである。
論文 参考訳(メタデータ) (2021-04-01T06:06:36Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - A Set of Recommendations for Assessing Human-Machine Parity in Language
Translation [87.72302201375847]
我々は、ハサンらの中国語から英語への翻訳調査を再評価する。
専門家による翻訳では誤りが著しく少なかった。
論文 参考訳(メタデータ) (2020-04-03T17:49:56Z) - A Comprehensive Survey of Multilingual Neural Machine Translation [22.96845346423759]
我々は多言語ニューラルマシン翻訳(MNMT)について調査する。
MNMTは、機械翻訳の研究のために、エンドツーエンドのモデリングと分散表現が新しい道を開くため、統計機械翻訳よりも有望である。
まず、その中心となるユースケースに基づいて様々なアプローチを分類し、さらにリソースシナリオ、基礎となるモデリング原則、コアイシュー、課題に基づいてそれらを分類します。
論文 参考訳(メタデータ) (2020-01-04T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。