論文の概要: Practical Perspectives on Quality Estimation for Machine Translation
- arxiv url: http://arxiv.org/abs/2005.03519v1
- Date: Sat, 2 May 2020 01:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:44:02.823426
- Title: Practical Perspectives on Quality Estimation for Machine Translation
- Title(参考訳): 機械翻訳の品質評価の実際的展望
- Authors: Junpei Zhou, Ciprian Chelba, Yuezhang (Music) Li
- Abstract要約: 機械翻訳(MT)のための文レベル品質推定(QE)は、MT出力の修正に必要な後編集作業の翻訳編集率(TER)コストを予測しようとする。
MT出力の利用者はバイナリ品質の指標に主に興味を持っている:翻訳文は適当か、それとも後編集が必要か?
従来のQE回帰モデルは、このタスクでは不十分であったが、出力回帰層をバイナリ分類に置き換えて、90%の精度で50-60%のリコールを達成できることを実証した。
- 参考スコア(独自算出の注目度): 6.400178956011897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence level quality estimation (QE) for machine translation (MT) attempts
to predict the translation edit rate (TER) cost of post-editing work required
to correct MT output. We describe our view on sentence-level QE as dictated by
several practical setups encountered in the industry. We find consumers of MT
output---whether human or algorithmic ones---to be primarily interested in a
binary quality metric: is the translated sentence adequate as-is or does it
need post-editing? Motivated by this we propose a quality classification (QC)
view on sentence-level QE whereby we focus on maximizing recall at precision
above a given threshold. We demonstrate that, while classical QE regression
models fare poorly on this task, they can be re-purposed by replacing the
output regression layer with a binary classification one, achieving 50-60\%
recall at 90\% precision. For a high-quality MT system producing 75-80\%
correct translations, this promises a significant reduction in post-editing
work indeed.
- Abstract(参考訳): 機械翻訳(MT)のための文レベル品質推定(QE)は、MT出力の修正に必要な後編集作業の翻訳編集率(TER)コストを予測する。
文レベルのQEに関する私たちの見解は、業界で遭遇したいくつかの実践的な設定によって規定されるものである。
MTのアウトプットの利用者は--人でもアルゴリズムでも--主にバイナリ品質の指標に関心がある--翻訳文は適当か、それとも後編集が必要か?
そこで我々は,与えられた閾値を超える精度でリコールを最大化することに集中して,文レベルQEの品質分類(QC)の視点を提案する。
従来のQE回帰モデルは、このタスクでは不十分であったが、出力回帰層をバイナリ分類に置き換えて、90倍の精度で50~60倍のリコールを達成できることを実証した。
75~80%の精度で正しい翻訳を行う高品質MTシステムでは、後編集作業の大幅な削減が約束されます。
関連論文リスト
- Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean [7.843029855730508]
1200文のMQM評価ベンチマークを英語と韓国語で作成する。
参照なしのセットアップはスタイルのディメンションにおいて、それよりも優れています。
全体として、RemBERTは最も有望なモデルとして現れます。
論文 参考訳(メタデータ) (2024-03-19T12:02:38Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - MTUncertainty: Assessing the Need for Post-editing of Machine Translation Outputs by Fine-tuning OpenAI LLMs [6.822926897514793]
TQEは機械翻訳(MT)と人間翻訳(HT)の両方の品質を基準翻訳なしで評価する上で重要である。
この目的のために,最先端の大規模言語モデル (LLM) が利用できるかを検討する。
OpenAIモデルを最先端技術として捉え、バイナリ分類タスクとしてTQEにアプローチします。
論文 参考訳(メタデータ) (2023-07-31T21:13:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - PreQuEL: Quality Estimation of Machine Translation Outputs in Advance [32.922128367314194]
PreQuELシステムは、実際の翻訳とは無関係に、ある文がどの程度翻訳されるかを予測する。
タスクのベースラインモデルを開発し,その性能を解析する。
本手法は,品質評価タスクの性能向上にも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-18T18:55:05Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Unsupervised Quality Estimation for Neural Machine Translation [63.38918378182266]
既存のアプローチでは、大量の専門家アノテートデータ、計算、トレーニング時間が必要です。
MTシステム自体以外に、トレーニングや追加リソースへのアクセスが不要なQEに対して、教師なしのアプローチを考案する。
我々は品質の人間の判断と非常によく相関し、最先端の教師付きQEモデルと競合する。
論文 参考訳(メタデータ) (2020-05-21T12:38:06Z) - Revisiting Round-Trip Translation for Quality Estimation [0.0]
品質評価(QE)とは、人間が翻訳した参照を使わずに翻訳の質を自動的に評価するタスクである。
本稿では,RTTベースのQEにセマンティック埋め込みを適用する。
提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。
論文 参考訳(メタデータ) (2020-04-29T03:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。