論文の概要: SemMT: A Semantic-based Testing Approach for Machine Translation Systems
- arxiv url: http://arxiv.org/abs/2012.01815v1
- Date: Thu, 3 Dec 2020 10:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-24 00:03:39.865974
- Title: SemMT: A Semantic-based Testing Approach for Machine Translation Systems
- Title(参考訳): SemMT: 機械翻訳システムのセマンティックなテスト手法
- Authors: Jialun Cao and Meiziniu Li and Yeting Li and Ming Wen and Shing-Chi
Cheung
- Abstract要約: 本稿ではセマンティック類似性チェックに基づく機械翻訳システムの自動テスト手法であるSemMTを提案する。
SemMTはラウンドトリップ翻訳を適用し、原文と翻訳文のセマンティックな類似度を測定する。
我々は,SemMTが最先端の作業よりも高い効率を達成できることを実証した。
- 参考スコア(独自算出の注目度): 11.166336490280749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation has wide applications in daily life. In mission-critical
applications such as translating official documents, incorrect translation can
have unpleasant or sometimes catastrophic consequences. This motivates recent
research on testing methodologies for machine translation systems. Existing
methodologies mostly rely on metamorphic relations designed at the textual
level (e.g., Levenshtein distance) or syntactic level (e.g., the distance
between grammar structures) to determine the correctness of translation
results. However, these metamorphic relations do not consider whether the
original and translated sentences have the same meaning (i.e., Semantic
similarity). Therefore, in this paper, we propose SemMT, an automatic testing
approach for machine translation systems based on semantic similarity checking.
SemMT applies round-trip translation and measures the semantic similarity
between the original and translated sentences. Our insight is that the
semantics expressed by the logic and numeric constraint in sentences can be
captured using regular expressions (or deterministic finite automata) where
efficient equivalence/similarity checking algorithms are available. Leveraging
the insight, we propose three semantic similarity metrics and implement them in
SemMT. The experiment result reveals SemMT can achieve higher effectiveness
compared with state-of-the-art works, achieving an increase of 21% and 23% on
accuracy and F-Score, respectively. We also explore potential improvements that
can be achieved when proper combinations of metrics are adopted. Finally, we
discuss a solution to locate the suspicious trip in round-trip translation,
which may shed lights on further exploration.
- Abstract(参考訳): 機械翻訳は日常生活に幅広い応用がある。
公式文書の翻訳のようなミッションクリティカルな応用では、誤った翻訳は不快あるいは破滅的な結果をもたらすことがある。
これは機械翻訳システムの試験方法に関する最近の研究を動機付けている。
既存の方法論は主に、翻訳結果の正確性を決定するために、テキストレベル(例えば、レベンシュテイン距離)または構文レベル(例えば文法構造間の距離)で設計された変成関係に依存する。
しかし、これらの変成関係は、原文と翻訳文が同じ意味(セマンティック類似性)を持つかどうかを考慮していない。
そこで本稿では,意味的類似性チェックに基づく機械翻訳システムのための自動テスト手法であるsemmtを提案する。
semmtは往復翻訳を行い、原文と翻訳文の意味的類似性を測定する。
我々の見識では、文中の論理と数値制約によって表現される意味論は、効率的な等価/類似性チェックアルゴリズムが利用できる正規表現(あるいは決定論的有限オートマトン)を用いて捉えることができる。
そこで本研究では,3つの意味的類似度指標を提案し,SemMTで実装する。
実験の結果,SemMTは最先端の作業に比べて高い有効性を実現でき,精度は21%,Fスコアは23%向上した。
また、メトリクスの適切な組み合わせを採用する際に達成できる潜在的な改善についても検討する。
最後に、この不審な旅行を往復翻訳で見つける方法について議論し、さらなる探索に光を放つ可能性がある。
関連論文リスト
- An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - MuLER: Detailed and Scalable Reference-based Evaluation [24.80921931416632]
そこで本研究では,テキスト生成のための基準ベース評価基準を細粒度解析ツールに変換する手法を提案する。
システムとメートル法が与えられたとき、MulERは選択されたメートル法が特定のエラータイプをどれだけ罰するかを定量化する。
我々は,MulERの有効性を実証し,その有用性を示すために,合成的および自然主義的な設定の両方で実験を行う。
論文 参考訳(メタデータ) (2023-05-24T10:26:13Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - NMTScore: A Multilingual Analysis of Translation-based Text Similarity
Measures [42.46681912294797]
我々は多言語NMTの共通フレームワークにおける翻訳に基づく類似度尺度を解析する。
文の埋め込みなどのベースラインと比較して、翻訳に基づく尺度はパラフレーズの識別において競争力があることが証明されている。
措置は人間の判断と相対的に高い相関を示す。
論文 参考訳(メタデータ) (2022-04-28T17:57:17Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。