論文の概要: Perturbation-based QE: An Explainable, Unsupervised Word-level Quality
Estimation Method for Blackbox Machine Translation
- arxiv url: http://arxiv.org/abs/2305.07457v2
- Date: Thu, 13 Jul 2023 07:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 17:14:53.972490
- Title: Perturbation-based QE: An Explainable, Unsupervised Word-level Quality
Estimation Method for Blackbox Machine Translation
- Title(参考訳): 摂動に基づくQE:ブラックボックス機械翻訳のための説明不可能な単語レベル品質推定手法
- Authors: Tu Anh Dinh, Jan Niehues
- Abstract要約: 摂動に基づくQEは、単に摂動入力元文上で出力されるMTシステムを分析することで機能する。
我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検出するのに優れている。
- 参考スコア(独自算出の注目度): 12.376309678270275
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Quality Estimation (QE) is the task of predicting the quality of Machine
Translation (MT) system output, without using any gold-standard translation
references. State-of-the-art QE models are supervised: they require
human-labeled quality of some MT system output on some datasets for training,
making them domain-dependent and MT-system-dependent. There has been research
on unsupervised QE, which requires glass-box access to the MT systems, or
parallel MT data to generate synthetic errors for training QE models. In this
paper, we present Perturbation-based QE - a word-level Quality Estimation
approach that works simply by analyzing MT system output on perturbed input
source sentences. Our approach is unsupervised, explainable, and can evaluate
any type of blackbox MT systems, including the currently prominent large
language models (LLMs) with opaque internal processes. For language directions
with no labeled QE data, our approach has similar or better performance than
the zero-shot supervised approach on the WMT21 shared task. Our approach is
better at detecting gender bias and word-sense-disambiguation errors in
translation than supervised QE, indicating its robustness to out-of-domain
usage. The performance gap is larger when detecting errors on a nontraditional
translation-prompting LLM, indicating that our approach is more generalizable
to different MT systems. We give examples demonstrating our approach's
explainability power, where it shows which input source words have influence on
a certain MT output word.
- Abstract(参考訳): QE(Quality Estimation)は、機械翻訳(MT)システム出力の品質をゴールドスタンダードの翻訳基準を使わずに予測するタスクである。
最新のQEモデルは、トレーニングのためにいくつかのデータセットで出力されるMTシステムの品質を人間にラベル付けする必要があるため、ドメインに依存し、MTシステムに依存している。
MTシステムへのガラスボックスアクセスや、QEモデルをトレーニングするための合成誤差を生成するための並列MTデータを必要とする教師なしQEの研究がある。
本稿では,摂動に基づく品質評価手法である摂動に基づくQEを提案する。
我々のアプローチは教師なし、説明可能であり、現在目立った大型言語モデル(llms)を含むあらゆる種類のブラックボックスmtシステムを不透明な内部プロセスで評価することができる。
ラベル付きQEデータを持たない言語方向については、WMT21共有タスクにおけるゼロショット教師付きアプローチと同等か、あるいは優れている。
我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検知し、ドメイン外使用に対する堅牢性を示す。
提案手法は, MT方式の異なるシステムに対してより一般化可能であることを示すため, 従来の翻訳プロンプティング LLM の誤差を検出する場合には, 性能ギャップが大きくなる。
提案手法では,特定のmt出力語に対してどの入力源語が影響を与えるかを示す。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean [7.843029855730508]
1200文のMQM評価ベンチマークを英語と韓国語で作成する。
参照なしのセットアップはスタイルのディメンションにおいて、それよりも優れています。
全体として、RemBERTは最も有望なモデルとして現れます。
論文 参考訳(メタデータ) (2024-03-19T12:02:38Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - SALTED: A Framework for SAlient Long-Tail Translation Error Detection [17.914521288548844]
本稿では,機械翻訳モデルの動作テストのための仕様ベースのフレームワークであるSALTEDを紹介する。
私たちのアプローチの核となるのは、ソース文とシステム出力の間のエラーをフラグする高精度検出器の開発です。
これらの検出器は,MTシステムにおける有意な長テール誤差の同定だけでなく,トレーニングデータの高精細フィルタリングにも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-20T06:45:07Z) - Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation [25.325624543852086]
本稿では,機械翻訳(MT)システムにおける品質推定の逆検定法を提案する。
近年のSOTAによる人的判断と高い相関があるにもかかわらず、ある種の意味エラーはQEが検出する上で問題である。
第二に、平均的に、あるモデルが意味保存と意味調整の摂動を区別する能力は、その全体的な性能を予測できることが示される。
論文 参考訳(メタデータ) (2021-09-22T17:32:18Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Beyond Glass-Box Features: Uncertainty Quantification Enhanced Quality
Estimation for Neural Machine Translation [14.469503103015668]
本研究では,不確実性定量化の特徴工学を事前学習した言語間言語モデルに融合させ,翻訳品質を予測する枠組みを提案する。
実験の結果,WMT 2020 QE共有タスクのデータセット上での最先端性能が得られた。
論文 参考訳(メタデータ) (2021-09-15T08:05:13Z) - Unsupervised Quality Estimation for Neural Machine Translation [63.38918378182266]
既存のアプローチでは、大量の専門家アノテートデータ、計算、トレーニング時間が必要です。
MTシステム自体以外に、トレーニングや追加リソースへのアクセスが不要なQEに対して、教師なしのアプローチを考案する。
我々は品質の人間の判断と非常によく相関し、最先端の教師付きQEモデルと競合する。
論文 参考訳(メタデータ) (2020-05-21T12:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。