論文の概要: Context-Aware Monolingual Human Evaluation of Machine Translation
- arxiv url: http://arxiv.org/abs/2504.07685v1
- Date: Thu, 10 Apr 2025 12:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:08.602348
- Title: Context-Aware Monolingual Human Evaluation of Machine Translation
- Title(参考訳): 文脈を考慮した単言語による機械翻訳の評価
- Authors: Silvio Picinini, Sheila Castilho,
- Abstract要約: 本稿では,機械翻訳(MT)における文脈認識型単言語評価の可能性について検討する。
4人の専門翻訳者がモノリンガルとバイリンガルの両方の評価を行った。
以上の結果から,文脈を考慮したモノリンガル評価が人間のバイリンガル評価に匹敵する結果をもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper explores the potential of context-aware monolingual human evaluation for assessing machine translation (MT) when no source is given for reference. To this end, we compare monolingual with bilingual evaluations (with source text), under two scenarios: the evaluation of a single MT system, and the comparative evaluation of pairwise MT systems. Four professional translators performed both monolingual and bilingual evaluations by assigning ratings and annotating errors, and providing feedback on their experience. Our findings suggest that context-aware monolingual human evaluation achieves comparable outcomes to human bilingual evaluations, and suggest the feasibility and potential of monolingual evaluation as an efficient approach to assessing MT.
- Abstract(参考訳): 本稿では,機械翻訳(MT)における文脈認識型単言語評価の可能性について検討する。
この目的のために、単言語と二言語による評価(原文との比較)を、単一のMTシステムの評価とペアワイズMTシステムの比較という2つのシナリオで比較する。
4人の専門翻訳者が、評価を割り当て、誤りを注釈付けし、経験にフィードバックを提供することで、単言語とバイリンガルの両方の評価を行った。
本研究は, 文脈認識型モノリンガル評価がヒトのバイリンガル評価に匹敵する結果をもたらすことを示唆し, MT評価に対する効果的なアプローチとしてモノリンガル評価の可能性と可能性を示した。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - BiVert: Bidirectional Vocabulary Evaluation using Relations for Machine
Translation [4.651581292181871]
本稿では,テキストから翻訳の感覚距離を評価するための双方向意味に基づく評価手法を提案する。
このアプローチでは、包括的な多言語百科事典BabelNetを用いる。
Factual analysis is a strong correlation between the average evaluations generated by our method and the human evaluations across various machine translation system for English- German language pair。
論文 参考訳(メタデータ) (2024-03-06T08:02:21Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Consistent Human Evaluation of Machine Translation across Language Pairs [21.81895199744468]
本稿では, 意味的等価性に着目したXSTSと呼ばれる新しい計量法と, 言語間キャリブレーション法を提案する。
最大14言語対にわたる大規模評価研究において,これらの新規貢献の有効性を実証する。
論文 参考訳(メタデータ) (2022-05-17T17:57:06Z) - Evaluating Multiway Multilingual NMT in the Turkic Languages [11.605271847666005]
本研究では、テュルク語族に属する22言語における機械翻訳システムの訓練と評価のための最先端手法の評価を行う。
我々は,26のバイリンガルベースラインと,コーパスを用いたマルチウェイニューラルMT(MNMT)モデルを訓練し,自動測定と人的評価を用いた広範囲な解析を行った。
MNMTモデルは、ドメイン外テストセットのほとんど全てのバイリンガルベースラインより優れており、単一のペアの下流タスクでモデルを微調整することで、大きなパフォーマンス向上がもたらされる。
論文 参考訳(メタデータ) (2021-09-13T19:01:07Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - A Set of Recommendations for Assessing Human-Machine Parity in Language
Translation [87.72302201375847]
我々は、ハサンらの中国語から英語への翻訳調査を再評価する。
専門家による翻訳では誤りが著しく少なかった。
論文 参考訳(メタデータ) (2020-04-03T17:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。