論文の概要: Towards General Error Diagnosis via Behavioral Testing in Machine
Translation
- arxiv url: http://arxiv.org/abs/2310.13362v1
- Date: Fri, 20 Oct 2023 09:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:45:53.228160
- Title: Towards General Error Diagnosis via Behavioral Testing in Machine
Translation
- Title(参考訳): 機械翻訳における行動検査による一般誤り診断に向けて
- Authors: Junjie Wu, Lemao Liu, Dit-Yan Yeung
- Abstract要約: 本稿では,機械翻訳(MT)システムの動作試験を行うための新しい枠組みを提案する。
BTPGBTの中核となる考え方は、新しいバイリンガル翻訳ペア生成アプローチを採用することである。
様々なMTシステムの実験結果から,BTPGBTは包括的かつ正確な行動検査結果を提供できることが示された。
- 参考スコア(独自算出の注目度): 48.108393938462974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral testing offers a crucial means of diagnosing linguistic errors and
assessing capabilities of NLP models. However, applying behavioral testing to
machine translation (MT) systems is challenging as it generally requires human
efforts to craft references for evaluating the translation quality of such
systems on newly generated test cases. Existing works in behavioral testing of
MT systems circumvent this by evaluating translation quality without
references, but this restricts diagnosis to specific types of errors, such as
incorrect translation of single numeric or currency words. In order to diagnose
general errors, this paper proposes a new Bilingual Translation Pair Generation
based Behavior Testing (BTPGBT) framework for conducting behavioral testing of
MT systems. The core idea of BTPGBT is to employ a novel bilingual translation
pair generation (BTPG) approach that automates the construction of high-quality
test cases and their pseudoreferences. Experimental results on various MT
systems demonstrate that BTPGBT could provide comprehensive and accurate
behavioral testing results for general error diagnosis, which further leads to
several insightful findings. Our code and data are available at https:
//github.com/wujunjie1998/BTPGBT.
- Abstract(参考訳): 行動テストは、言語エラーの診断とnlpモデルの能力評価に重要な手段を提供する。
しかし, 機械翻訳(MT)システムへの動作テストの適用は, 一般的には, 新たに生成されたテストケースにおいて, それらのシステムの翻訳品質を評価するための基準を作成することが必要なため, 困難である。
mtシステムの動作テストにおける既存の作業は、参照無しで翻訳品質を評価することでこれを回避しているが、単一の数値や通貨の単語の誤訳のような特定の種類のエラーに対する診断を制限している。
本稿では,一般的な誤りを診断するために,MTシステムの動作テストを行うためのバイリンガル翻訳ペア生成に基づく振る舞いテスト(BTPGBT)フレームワークを提案する。
BTPGBTの中核となる考え方は、高品質なテストケースとそれらの擬似参照の構築を自動化する、新しいバイリンガル翻訳ペア生成(BTPG)アプローチを採用することである。
様々なmtシステムにおける実験結果は、btpgbtが一般的な誤り診断のために包括的かつ正確な行動検査結果を提供できることを示した。
私たちのコードとデータはhttps: //github.com/wujunjie1998/btpgbtで入手できます。
関連論文リスト
- Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - Automating Behavioral Testing in Machine Translation [9.151054827967933]
本稿では,機械翻訳モデルの振る舞いをテストするために,大規模言語モデルを用いてソース文を生成することを提案する。
MTモデルが一致した候補集合を通して期待される振る舞いを示すかどうかを検証することができる。
本研究の目的は,人的労力を最小限に抑えながら,MTシステムの動作試験を実践することである。
論文 参考訳(メタデータ) (2023-09-05T19:40:45Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - SALTED: A Framework for SAlient Long-Tail Translation Error Detection [17.914521288548844]
本稿では,機械翻訳モデルの動作テストのための仕様ベースのフレームワークであるSALTEDを紹介する。
私たちのアプローチの核となるのは、ソース文とシステム出力の間のエラーをフラグする高精度検出器の開発です。
これらの検出器は,MTシステムにおける有意な長テール誤差の同定だけでなく,トレーニングデータの高精細フィルタリングにも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-20T06:45:07Z) - Variance-Aware Machine Translation Test Sets [19.973201669851626]
分散対応テストセット(VAT)と呼ばれる機械翻訳(MT)評価のための70個の小型判別テストセットをリリースする。
VATは、人間の労力なしで現在のMTテストセットの無差別なテストインスタンスをフィルタリングする、新しい分散認識フィルタリング法によって自動的に生成される。
論文 参考訳(メタデータ) (2021-11-07T13:18:59Z) - As Easy as 1, 2, 3: Behavioural Testing of NMT Systems for Numerical
Translation [51.20569527047729]
誤訳された数字は、金銭的損失や医療的誤報などの深刻な影響を引き起こす可能性がある。
本研究では,ニューラルネットワーク翻訳システムの動作テストによる数値テキストへの堅牢性に関する総合的な評価法を開発した。
論文 参考訳(メタデータ) (2021-07-18T04:09:47Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。