論文の概要: Measuring Uncertainty in Translation Quality Evaluation (TQE)
- arxiv url: http://arxiv.org/abs/2111.07699v1
- Date: Mon, 15 Nov 2021 12:09:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 17:48:40.759339
- Title: Measuring Uncertainty in Translation Quality Evaluation (TQE)
- Title(参考訳): 翻訳品質評価(TQE)における不確かさの測定
- Authors: Serge Gladkoff, Irina Sorokina, Lifeng Han, Alexandra Alekseeva
- Abstract要約: 本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: From both human translators (HT) and machine translation (MT) researchers'
point of view, translation quality evaluation (TQE) is an essential task.
Translation service providers (TSPs) have to deliver large volumes of
translations which meet customer specifications with harsh constraints of
required quality level in tight time-frames and costs. MT researchers strive to
make their models better, which also requires reliable quality evaluation.
While automatic machine translation evaluation (MTE) metrics and quality
estimation (QE) tools are widely available and easy to access, existing
automated tools are not good enough, and human assessment from professional
translators (HAP) are often chosen as the golden standard
\cite{han-etal-2021-TQA}. Human evaluations, however, are often accused of
having low reliability and agreement. Is this caused by subjectivity or
statistics is at play? How to avoid the entire text to be checked and be more
efficient with TQE from cost and efficiency perspectives, and what is the
optimal sample size of the translated text, so as to reliably estimate the
translation quality of the entire material? This work carries out such
motivated research to correctly estimate the confidence intervals
\cite{Brown_etal2001Interval} depending on the sample size of the translated
text, e.g. the amount of words or sentences, that needs to be processed on TQE
workflow step for confident and reliable evaluation of overall translation
quality. The methodology we applied for this work is from Bernoulli Statistical
Distribution Modelling (BSDM) and Monte Carlo Sampling Analysis (MCSA).
- Abstract(参考訳): ヒト翻訳者(HT)と機械翻訳者(MT)の両方の観点から、翻訳品質評価(TQE)が不可欠である。
翻訳サービスプロバイダ(TSP)は、厳しい時間枠とコストで要求される品質レベルの厳しい制約で、顧客仕様を満たす大量の翻訳を提供する必要があります。
MTの研究者たちはモデルの改善に努め、信頼性の高い品質評価も必要としている。
自動機械翻訳評価(mte)のメトリクスと品質推定(qe)ツールは広く利用可能であり、アクセスが容易であるが、既存の自動化ツールは不十分であり、プロの翻訳者(hap)によるヒューマンアセスメントは、しばしば金の標準である \cite{han-etal-2021-tqa} として選択される。
しかし、人間の評価は信頼性と同意度が低いとしばしば非難される。
これは主観性や統計が原因か?
原価と効率の観点から、また翻訳テキストの最適なサンプルサイズは、資料全体の翻訳品質を確実に推定するために、テキスト全体のチェックやtqeによる効率的化を避けるには、どうすればよいのか?
この研究は、翻訳されたテキストのサンプルサイズ、例えばTQEワークフローステップで処理する必要がある単語や文の量に応じて、信頼区間 \cite{Brown_etal 2001Interval} を正確に推定し、全体的な翻訳品質の信頼性と信頼性を評価する。
本研究に応用した手法はbernoulli statistical distribution modelling (bsdm) と monte carlo sampling analysis (mcsa) によるものである。
関連論文リスト
- Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - MTUncertainty: Assessing the Need for Post-editing of Machine Translation Outputs by Fine-tuning OpenAI LLMs [6.822926897514793]
TQEは機械翻訳(MT)と人間翻訳(HT)の両方の品質を基準翻訳なしで評価する上で重要である。
この目的のために,最先端の大規模言語モデル (LLM) が利用できるかを検討する。
OpenAIモデルを最先端技術として捉え、バイナリ分類タスクとしてTQEにアプローチします。
論文 参考訳(メタデータ) (2023-07-31T21:13:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - A Bayesian approach to translators' reliability assessment [0.0]
我々は、複雑なシステムの観点から、翻訳品質評価プロセスを複雑なプロセスとみなす。
TQAプロセスに関わる特徴,すなわち翻訳難易度,翻訳生成と品質評価に関わる翻訳者の特性をパラメータ化する2つのベイズモデルを構築した。
専門家翻訳者であっても、レビュアーの信頼性は当然と言えないことを示す。
論文 参考訳(メタデータ) (2022-03-14T14:29:45Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - Translation Quality Assessment: A Brief Survey on Manual and Automatic
Methods [9.210509295803243]
手動判定基準と自動評価指標の両方を含む、翻訳品質評価(TQA)手法のハイレベルで簡潔な調査を紹介します。
翻訳モデル研究者と品質評価研究者の両方にとって、この研究が資産になることを願っています。
論文 参考訳(メタデータ) (2021-05-05T18:28:10Z) - Unsupervised Quality Estimation for Neural Machine Translation [63.38918378182266]
既存のアプローチでは、大量の専門家アノテートデータ、計算、トレーニング時間が必要です。
MTシステム自体以外に、トレーニングや追加リソースへのアクセスが不要なQEに対して、教師なしのアプローチを考案する。
我々は品質の人間の判断と非常によく相関し、最先端の教師付きQEモデルと競合する。
論文 参考訳(メタデータ) (2020-05-21T12:38:06Z) - Revisiting Round-Trip Translation for Quality Estimation [0.0]
品質評価(QE)とは、人間が翻訳した参照を使わずに翻訳の質を自動的に評価するタスクである。
本稿では,RTTベースのQEにセマンティック埋め込みを適用する。
提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。
論文 参考訳(メタデータ) (2020-04-29T03:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。