論文の概要: As Easy as 1, 2, 3: Behavioural Testing of NMT Systems for Numerical
Translation
- arxiv url: http://arxiv.org/abs/2107.08357v1
- Date: Sun, 18 Jul 2021 04:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 14:52:32.548861
- Title: As Easy as 1, 2, 3: Behavioural Testing of NMT Systems for Numerical
Translation
- Title(参考訳): 1, 2, 3: 数値翻訳のためのNMTシステムの挙動試験
- Authors: Jun Wang, Chang Xu, Francisco Guzman, Ahmed El-Kishky, Benjamin I. P.
Rubinstein, Trevor Cohn
- Abstract要約: 誤訳された数字は、金銭的損失や医療的誤報などの深刻な影響を引き起こす可能性がある。
本研究では,ニューラルネットワーク翻訳システムの動作テストによる数値テキストへの堅牢性に関する総合的な評価法を開発した。
- 参考スコア(独自算出の注目度): 51.20569527047729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mistranslated numbers have the potential to cause serious effects, such as
financial loss or medical misinformation. In this work we develop comprehensive
assessments of the robustness of neural machine translation systems to
numerical text via behavioural testing. We explore a variety of numerical
translation capabilities a system is expected to exhibit and design effective
test examples to expose system underperformance. We find that numerical
mistranslation is a general issue: major commercial systems and
state-of-the-art research models fail on many of our test examples, for high-
and low-resource languages. Our tests reveal novel errors that have not
previously been reported in NMT systems, to the best of our knowledge. Lastly,
we discuss strategies to mitigate numerical mistranslation.
- Abstract(参考訳): 誤訳された数字は、金銭的損失や医療的誤報などの深刻な影響を引き起こす可能性がある。
本研究では,ニューラルマシン翻訳システムの動作テストによる数値テキストへの堅牢性に関する包括的評価を開発する。
システムの性能低下を露呈する効果的なテスト例を提示し,設計することが期待される数値翻訳の多種多様な機能について検討する。
主要な商用システムと最先端の研究モデルは、ハイソース言語やローソース言語など、多くのテスト例で失敗しています。
これまでのNTTシステムでは報告されていない新たなエラーを,我々の知る限りで確認した。
最後に,数値的誤訳を緩和するための戦略について考察する。
関連論文リスト
- Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。
我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。
本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文 参考訳(メタデータ) (2024-05-29T09:25:49Z) - Towards General Error Diagnosis via Behavioral Testing in Machine
Translation [48.108393938462974]
本稿では,機械翻訳(MT)システムの動作試験を行うための新しい枠組みを提案する。
BTPGBTの中核となる考え方は、新しいバイリンガル翻訳ペア生成アプローチを採用することである。
様々なMTシステムの実験結果から,BTPGBTは包括的かつ正確な行動検査結果を提供できることが示された。
論文 参考訳(メタデータ) (2023-10-20T09:06:41Z) - Automating Behavioral Testing in Machine Translation [9.151054827967933]
本稿では,機械翻訳モデルの振る舞いをテストするために,大規模言語モデルを用いてソース文を生成することを提案する。
MTモデルが一致した候補集合を通して期待される振る舞いを示すかどうかを検証することができる。
本研究の目的は,人的労力を最小限に抑えながら,MTシステムの動作試験を実践することである。
論文 参考訳(メタデータ) (2023-09-05T19:40:45Z) - SALTED: A Framework for SAlient Long-Tail Translation Error Detection [17.914521288548844]
本稿では,機械翻訳モデルの動作テストのための仕様ベースのフレームワークであるSALTEDを紹介する。
私たちのアプローチの核となるのは、ソース文とシステム出力の間のエラーをフラグする高精度検出器の開発です。
これらの検出器は,MTシステムにおける有意な長テール誤差の同定だけでなく,トレーニングデータの高精細フィルタリングにも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-20T06:45:07Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z) - Robust Unsupervised Neural Machine Translation with Adversarial
Denoising Training [66.39561682517741]
unsupervised neural machine translation (UNMT) は機械翻訳コミュニティに大きな関心を集めている。
UNMTの主な利点は、必要な大規模な訓練用テキストの簡単な収集にある。
本稿では,UNMT ベースのシステムのロバスト性を改善するため,まずノイズを考慮に入れた。
論文 参考訳(メタデータ) (2020-02-28T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。