論文の概要: Rethinking the Evaluation of Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2106.15217v1
- Date: Tue, 29 Jun 2021 09:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 02:51:09.957913
- Title: Rethinking the Evaluation of Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳の評価の再考
- Authors: Jianhao Yan, Chenming Wu, Fandong Meng, Jie Zhou
- Abstract要約: 本稿では,探索誤りの影響を回避し,モデルランキングの観点からシステムレベルの評価を行う新しい評価プロトコルを提案する。
提案手法は,ビームサーチではなく,新たに提案した最上位k$デコードに基づく。
- 参考スコア(独自算出の注目度): 25.036685025571927
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The evaluation of neural machine translation systems is usually built upon
generated translation of a certain decoding method (e.g., beam search) with
evaluation metrics over the generated translation (e.g., BLEU). However, this
evaluation framework suffers from high search errors brought by heuristic
search algorithms and is limited by its nature of evaluation over one best
candidate. In this paper, we propose a novel evaluation protocol, which not
only avoids the effect of search errors but provides a system-level evaluation
in the perspective of model ranking. In particular, our method is based on our
newly proposed exact top-$k$ decoding instead of beam search. Our approach
evaluates model errors by the distance between the candidate spaces scored by
the references and the model respectively. Extensive experiments on WMT'14
English-German demonstrate that bad ranking ability is connected to the
well-known beam search curse, and state-of-the-art Transformer models are
facing serious ranking errors. By evaluating various model architectures and
techniques, we provide several interesting findings. Finally, to effectively
approximate the exact search algorithm with same time cost as original beam
search, we present a minimum heap augmented beam search algorithm.
- Abstract(参考訳): ニューラルマシン翻訳システムの評価は、通常、特定の復号法(ビーム探索など)の生成された翻訳と、生成された翻訳(例えばbleu)に対する評価指標に基づいて行われる。
しかし, この評価手法は, ヒューリスティック検索アルゴリズムによる高い探索誤差に悩まされており, 一つの最適候補に対する評価の性質によって制限されている。
本稿では,探索誤りの影響を回避するだけでなく,モデルランキングの観点からシステムレベルの評価を行う新しい評価プロトコルを提案する。
特に,本手法はビームサーチの代わりに,新たに提案した最上位k$デコードに基づいている。
提案手法は,参照によって得られた候補空間とモデルとの距離によってモデル誤差を評価する。
WMT'14の大規模な実験では、悪ランキング能力が有名なビームサーチの呪いと結びついており、最先端のトランスフォーマーモデルは深刻なランキングエラーに直面している。
様々なモデルアーキテクチャや手法を評価することで、いくつかの興味深い知見を得る。
最後に,元のビーム探索と同じ時間コストで正確な探索アルゴリズムを効果的に近似するために,最小ヒープ拡張ビーム探索アルゴリズムを提案する。
関連論文リスト
- xCOMET: Transparent Machine Translation Evaluation through Fine-grained
Error Detection [21.116517555282314]
xCOMETは、機械翻訳評価アプローチのギャップを埋めるために設計されたオープンソースの学習メトリクスである。
文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価で最先端のパフォーマンスを示す。
また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。
論文 参考訳(メタデータ) (2023-10-16T15:03:14Z) - Rank-DETR for High Quality Object Detection [52.82810762221516]
高性能なオブジェクト検出器は、バウンディングボックス予測の正確なランキングを必要とする。
本研究では, 簡易かつ高性能なDETR型物体検出器について, 一連のランク指向設計を提案して紹介する。
論文 参考訳(メタデータ) (2023-10-13T04:48:32Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Quality-Aware Decoding for Neural Machine Translation [64.24934199944875]
ニューラルネットワーク翻訳(NMT)のための品質認識復号法を提案する。
参照フリーおよび参照ベースMT評価における最近のブレークスルーを,様々な推論手法を用いて活用する。
品質認識復号化は、最先端の自動測定値と人的評価値の両方で、MAPベースの復号化を一貫して上回ります。
論文 参考訳(メタデータ) (2022-05-02T15:26:28Z) - Enabling arbitrary translation objectives with Adaptive Tree Search [23.40984370716434]
本研究では,適応木探索アルゴリズムを導入し,探索対象の形状や構造を仮定しない翻訳モデルの下で高いスコア付け出力を求める。
我々のアルゴリズムはビームサーチとは異なるバイアスを有しており、自己回帰モデルにおけるデコードバイアスの役割を新たに解析することができる。
論文 参考訳(メタデータ) (2022-02-23T11:48:26Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Sampling-Based Minimum Bayes Risk Decoding for Neural Machine
Translation [20.76001576262768]
本研究では,最小ベイズリスク (MBR) 復号化に対するサンプリングに基づく近似がビーム探索の呪文と等価でないことを示す。
また,ビーム探索や核サンプリングといった手法を用いて仮説空間を効率的に構築することが有用であることを示す。
論文 参考訳(メタデータ) (2021-08-10T14:35:24Z) - Machine Translation Decoding beyond Beam Search [43.27883368285612]
ビームサーチは自動回帰機械翻訳モデルの復号化手法である。
我々の目標は、ビームサーチがより強力な計量駆動サーチ技術に置き換えられるかどうかを確かめることである。
モンテカルロ木探索(mcts)に基づく手法を導入し,その競合性を示す。
論文 参考訳(メタデータ) (2021-04-12T10:28:17Z) - AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。
前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。
本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。