論文の概要: Word Closure-Based Metamorphic Testing for Machine Translation
- arxiv url: http://arxiv.org/abs/2312.12056v2
- Date: Mon, 22 Jul 2024 14:17:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 05:07:10.779101
- Title: Word Closure-Based Metamorphic Testing for Machine Translation
- Title(参考訳): 単語クロージャに基づく機械翻訳のためのメタモルフィックテスト
- Authors: Xiaoyuan Xie, Shuo Jin, Songqiang Chen, Shing-Chi Cheung,
- Abstract要約: 本稿では,既存の機械翻訳システム(MTS)MT手法の限界に対処するため,単語クロージャに基づく出力比較手法を提案する。
本手法は, 精度の向上とリコールにより, 既存の不正識別の精度を著しく向上させる。
また、翻訳エラーのF1スコアを35.9%向上させるのに役立つ。
- 参考スコア(独自算出の注目度): 8.009584342926646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the wide application of machine translation, the testing of Machine Translation Systems (MTSs) has attracted much attention. Recent works apply Metamorphic Testing (MT) to address the oracle problem in MTS testing. Existing MT methods for MTS generally follow the workflow of input transformation and output relation comparison, which generates a follow-up input sentence by mutating the source input and compares the source and follow-up output translations to detect translation errors, respectively. These methods use various input transformations to generate test case pairs and have successfully triggered numerous translation errors. However, they have limitations in performing fine-grained and rigorous output relation comparison and thus may report many false alarms and miss many true errors. In this paper, we propose a word closure-based output comparison method to address the limitations of the existing MTS MT methods. We first propose word closure as a new comparison unit, where each closure includes a group of correlated input and output words in the test case pair. Word closures suggest the linkages between the appropriate fragment in the source output translation and its counterpart in the follow-up output for comparison. Next, we compare the semantics on the level of word closure to identify the translation errors. In this way, we perform a fine-grained and rigorous semantic comparison for the outputs and thus realize more effective violation identification. We evaluate our method with the test cases generated by five existing input transformations and the translation outputs from three popular MTSs. Results show that our method significantly outperforms the existing works in violation identification by improving the precision and recall and achieving an average increase of 29.9% in F1 score. It also helps to increase the F1 score of translation error localization by 35.9%.
- Abstract(参考訳): 機械翻訳の幅広い応用により、機械翻訳システム(MTS)のテストが注目されている。
最近の研究は、MTテストにおけるオラクル問題に対処するために、メタモルフィックテスト(MT)を適用している。
MTSの既存のMT法は一般的に、入力変換と出力関係比較のワークフローに従っており、ソース入力を変更してフォローアップ入力文を生成し、ソースとフォローアップ出力の変換を比較してそれぞれ翻訳エラーを検出する。
これらの手法は様々な入力変換を用いてテストケースペアを生成し、多数の翻訳エラーを発生させることに成功した。
しかし、細粒度と厳密な出力関係の比較を行うには限界があり、多くの誤報を報告し、多くの真の誤りを見逃す可能性がある。
本稿では,既存のMT手法の限界に対処する単語クロージャに基づく出力比較手法を提案する。
まず,単語のクロージャを新しい比較単位として提案する。各クロージャは,テストケースペア内の相関した入力語と出力語のグループを含む。
単語のクロージャは、ソース出力変換における適切なフラグメントと、比較のためのフォローアップアウトプットとのリンクを示唆する。
次に,単語閉鎖レベルの意味論を比較し,翻訳誤りを識別する。
このようにして、出力に対してきめ細かな厳密なセマンティック比較を行い、より効果的な違反識別を実現する。
提案手法は,既存の5つの入力変換と3つのMSSからの変換出力によって生成されるテストケースを用いて評価する。
その結果,F1スコアの平均値が29.9%向上し,精度とリコールが向上し,既存の不正識別方法よりも優れていたことが示唆された。
また、翻訳エラーのF1スコアを35.9%向上させるのに役立つ。
関連論文リスト
- Multilingual Contrastive Decoding via Language-Agnostic Layers Skipping [60.458273797431836]
対照的なレイヤ(DoLa)によるデコーディングは、大規模言語モデルの生成品質を改善するために設計されている。
このアプローチは英語以外のタスクではうまくいきません。
モデルの前方通過における言語遷移に関する従来の解釈可能性の研究から着想を得て,改良されたコントラスト復号アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-15T15:14:01Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - OTTAWA: Optimal TransporT Adaptive Word Aligner for Hallucination and Omission Translation Errors Detection [36.59354124910338]
オタワ(Ottawa)は、機械翻訳システムにおける幻覚や失語の検出を強化するために特別に設計された単語整合器である。
提案手法は,HalOmiベンチマークを用いた18言語対の最先端手法と比較して,競争力のある結果が得られる。
論文 参考訳(メタデータ) (2024-06-04T03:00:55Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - MuLER: Detailed and Scalable Reference-based Evaluation [24.80921931416632]
そこで本研究では,テキスト生成のための基準ベース評価基準を細粒度解析ツールに変換する手法を提案する。
システムとメートル法が与えられたとき、MulERは選択されたメートル法が特定のエラータイプをどれだけ罰するかを定量化する。
我々は,MulERの有効性を実証し,その有用性を示すために,合成的および自然主義的な設定の両方で実験を行う。
論文 参考訳(メタデータ) (2023-05-24T10:26:13Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Mismatching-Aware Unsupervised Translation Quality Estimation For
Low-Resource Languages [6.049660810617423]
XLMRScoreは、XLM-RoBERTa (XLMR)モデルで計算されたBERTScoreの言語間対応である。
WMT21QE共有タスクの4つの低リソース言語対に対して提案手法を評価する。
論文 参考訳(メタデータ) (2022-07-31T16:23:23Z) - Principled Paraphrase Generation with Parallel Corpora [52.78059089341062]
ラウンドトリップ機械翻訳によって引き起こされる暗黙の類似性関数を形式化する。
一つのあいまいな翻訳を共有する非パラフレーズ対に感受性があることが示される。
この問題を緩和する別の類似度指標を設計する。
論文 参考訳(メタデータ) (2022-05-24T17:22:42Z) - SemMT: A Semantic-based Testing Approach for Machine Translation Systems [11.166336490280749]
本稿ではセマンティック類似性チェックに基づく機械翻訳システムの自動テスト手法であるSemMTを提案する。
SemMTはラウンドトリップ翻訳を適用し、原文と翻訳文のセマンティックな類似度を測定する。
我々は,SemMTが最先端の作業よりも高い効率を達成できることを実証した。
論文 参考訳(メタデータ) (2020-12-03T10:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。