論文の概要: Automating Behavioral Testing in Machine Translation
- arxiv url: http://arxiv.org/abs/2309.02553v2
- Date: Thu, 7 Sep 2023 00:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 15:50:36.972859
- Title: Automating Behavioral Testing in Machine Translation
- Title(参考訳): 機械翻訳における行動テストの自動化
- Authors: Javier Ferrando, Matthias Sperber, Hendra Setiawan, Dominic Telaar,
Sa\v{s}a Hasan
- Abstract要約: 本稿では,機械翻訳モデルの振る舞いをテストするために,大規模言語モデルを用いてソース文を生成することを提案する。
MTモデルが一致した候補集合を通して期待される振る舞いを示すかどうかを検証することができる。
本研究の目的は,人的労力を最小限に抑えながら,MTシステムの動作試験を実践することである。
- 参考スコア(独自算出の注目度): 9.151054827967933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral testing in NLP allows fine-grained evaluation of systems by
examining their linguistic capabilities through the analysis of input-output
behavior. Unfortunately, existing work on behavioral testing in Machine
Translation (MT) is currently restricted to largely handcrafted tests covering
a limited range of capabilities and languages. To address this limitation, we
propose to use Large Language Models (LLMs) to generate a diverse set of source
sentences tailored to test the behavior of MT models in a range of situations.
We can then verify whether the MT model exhibits the expected behavior through
matching candidate sets that are also generated using LLMs. Our approach aims
to make behavioral testing of MT systems practical while requiring only minimal
human effort. In our experiments, we apply our proposed evaluation framework to
assess multiple available MT systems, revealing that while in general
pass-rates follow the trends observable from traditional accuracy-based
metrics, our method was able to uncover several important differences and
potential bugs that go unnoticed when relying only on accuracy.
- Abstract(参考訳): NLPにおける振る舞いテストは、入出力動作の分析を通じて言語能力を調べることによって、システムのきめ細かい評価を可能にする。
残念ながら、機械翻訳(MT)における振る舞いテストに関する既存の作業は、現在、限られた機能と言語をカバーする手作りのテストに限られている。
この制限に対処するために,我々は,MTモデルの振る舞いを幅広い状況でテストするために,多種多様なソース文を生成するために,Large Language Models (LLMs) を提案する。
次に, MTモデルがLLMを用いて生成した候補集合をマッチングすることにより, 期待される挙動を示すか否かを検証する。
本研究の目的は,人的労力を最小限に抑えながら,MTシステムの動作試験を実践することである。
実験では,提案手法を用いて複数のMTシステムの評価を行い,従来の精度に基づく測定値から観測可能な傾向をパスレートで追従するが,精度のみに依存する場合,いくつかの重要な違いや潜在的なバグを明らかにすることができた。
関連論文リスト
- Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - Towards General Error Diagnosis via Behavioral Testing in Machine
Translation [48.108393938462974]
本稿では,機械翻訳(MT)システムの動作試験を行うための新しい枠組みを提案する。
BTPGBTの中核となる考え方は、新しいバイリンガル翻訳ペア生成アプローチを採用することである。
様々なMTシステムの実験結果から,BTPGBTは包括的かつ正確な行動検査結果を提供できることが示された。
論文 参考訳(メタデータ) (2023-10-20T09:06:41Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - HilMeMe: A Human-in-the-Loop Machine Translation Evaluation Metric
Looking into Multi-Word Expressions [6.85316573653194]
言語的に動機づけたHuman-in-the-loop評価尺度の設計と実装について,慣用的および用語的マルチワード表現(MWEs)について述べる。
MWEは、MWEを正確で意味のある等価な方法で認識・翻訳する能力を調べることで、異なるMTシステムを区別する主要な要因の1つである。
論文 参考訳(メタデータ) (2022-11-09T21:15:40Z) - A Probabilistic Framework for Mutation Testing in Deep Neural Networks [12.033944769247958]
不整合を緩和する確率変異テスト(PMT)手法を提案する。
PMTは、評価を通じてより一貫性のある、より情報のある突然変異の決定を可能にする。
論文 参考訳(メタデータ) (2022-08-11T19:45:14Z) - Can NMT Understand Me? Towards Perturbation-based Evaluation of NMT
Models for Code Generation [1.7616042687330642]
NMTモデルの堅牢性を検証するための重要なステップは、その性能を逆入力で評価することである。
本研究では,そのようなモデルのロバスト性評価に適した摂動と測定値のセットを同定する。
モデルにどのような摂動が最も影響を与えるかを示す予備実験を行った。
論文 参考訳(メタデータ) (2022-03-29T08:01:39Z) - Variance-Aware Machine Translation Test Sets [19.973201669851626]
分散対応テストセット(VAT)と呼ばれる機械翻訳(MT)評価のための70個の小型判別テストセットをリリースする。
VATは、人間の労力なしで現在のMTテストセットの無差別なテストインスタンスをフィルタリングする、新しい分散認識フィルタリング法によって自動的に生成される。
論文 参考訳(メタデータ) (2021-11-07T13:18:59Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - As Easy as 1, 2, 3: Behavioural Testing of NMT Systems for Numerical
Translation [51.20569527047729]
誤訳された数字は、金銭的損失や医療的誤報などの深刻な影響を引き起こす可能性がある。
本研究では,ニューラルネットワーク翻訳システムの動作テストによる数値テキストへの堅牢性に関する総合的な評価法を開発した。
論文 参考訳(メタデータ) (2021-07-18T04:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。