論文の概要: SALTED: A Framework for SAlient Long-Tail Translation Error Detection
- arxiv url: http://arxiv.org/abs/2205.09988v1
- Date: Fri, 20 May 2022 06:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 04:58:31.473693
- Title: SALTED: A Framework for SAlient Long-Tail Translation Error Detection
- Title(参考訳): SALTED: SALient Long-Tail Translation Error Detectionのためのフレームワーク
- Authors: Vikas Raunak, Matt Post, Arul Menezes
- Abstract要約: 本稿では,機械翻訳モデルの動作テストのための仕様ベースのフレームワークであるSALTEDを紹介する。
私たちのアプローチの核となるのは、ソース文とシステム出力の間のエラーをフラグする高精度検出器の開発です。
これらの検出器は,MTシステムにおける有意な長テール誤差の同定だけでなく,トレーニングデータの高精細フィルタリングにも有効であることを示す。
- 参考スコア(独自算出の注目度): 17.914521288548844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional machine translation (MT) metrics provide an average measure of
translation quality that is insensitive to the long tail of behavioral problems
in MT. Examples include translation of numbers, physical units, dropped content
and hallucinations. These errors, which occur rarely and unpredictably in
Neural Machine Translation (NMT), greatly undermine the reliability of
state-of-the-art MT systems. Consequently, it is important to have visibility
into these problems during model development. Towards this direction, we
introduce SALTED, a specifications-based framework for behavioral testing of MT
models that provides fine-grained views of salient long-tail errors, permitting
trustworthy visibility into previously invisible problems. At the core of our
approach is the development of high-precision detectors that flag errors (or
alternatively, verify output correctness) between a source sentence and a
system output. We demonstrate that such detectors could be used not just to
identify salient long-tail errors in MT systems, but also for higher-recall
filtering of the training data, fixing targeted errors with model fine-tuning
in NMT and generating novel data for metamorphic testing to elicit further bugs
in models.
- Abstract(参考訳): 従来の機械翻訳(MT)メトリクスは、MTにおける行動問題の長い尾に敏感な平均的な翻訳品質を提供する。例えば、数字の翻訳、物理単位、削除された内容、幻覚などがある。
ニューラルネットワーク翻訳(NMT)において稀かつ予測不可能なこれらのエラーは、最先端MTシステムの信頼性を著しく損なう。
したがって、モデル開発中にこれらの問題を可視化することが重要である。
この方向に向かって、我々は、MTモデルの振る舞いテストのための仕様ベースのフレームワークであるSALTEDを紹介した。
私たちのアプローチの核心は、ソース文とシステム出力の間のエラー(または出力の正当性を検証)をフラグする高精度検出器の開発です。
これらの検出器は,MTシステムにおける有意な長テール誤差の同定だけでなく,トレーニングデータの高精細度フィルタリング,NMTにおけるモデル微調整によるターゲット誤差の修正,メタモルフィック試験のための新しいデータ生成などにも利用できることを示した。
関連論文リスト
- Cyber Risks of Machine Translation Critical Errors : Arabic Mental Health Tweets as a Case Study [3.8779763612314637]
本稿では,MTの共通利用に関わる倫理的・安全性上の問題に言及するために,機械翻訳クリティカルエラーの真正データセットを提案する。
このデータセットは、重要なエラータイプを手動で注釈付けしたアラビアのメンタルヘルスポストの誤訳を含む。
また、一般的に使われている品質指標が重大なエラーをペナルティにしないことを示すとともに、研究者のさらなる注意を喚起する重要な問題として強調する。
論文 参考訳(メタデータ) (2024-05-19T20:24:51Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Perturbation-based QE: An Explainable, Unsupervised Word-level Quality
Estimation Method for Blackbox Machine Translation [12.376309678270275]
摂動に基づくQEは、単に摂動入力元文上で出力されるMTシステムを分析することで機能する。
我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検出するのに優れている。
論文 参考訳(メタデータ) (2023-05-12T13:10:57Z) - Can NMT Understand Me? Towards Perturbation-based Evaluation of NMT
Models for Code Generation [1.7616042687330642]
NMTモデルの堅牢性を検証するための重要なステップは、その性能を逆入力で評価することである。
本研究では,そのようなモデルのロバスト性評価に適した摂動と測定値のセットを同定する。
モデルにどのような摂動が最も影響を与えるかを示す予備実験を行った。
論文 参考訳(メタデータ) (2022-03-29T08:01:39Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z) - Sentence Boundary Augmentation For Neural Machine Translation Robustness [11.290581889247983]
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
文境界セグメンテーションが品質に最も大きな影響を与えることを示し、セグメンテーションの堅牢性を改善するための単純なデータ拡張戦略を開発する。
論文 参考訳(メタデータ) (2020-10-21T16:44:48Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。