論文の概要: A Study in Improving BLEU Reference Coverage with Diverse Automatic
Paraphrasing
- arxiv url: http://arxiv.org/abs/2004.14989v3
- Date: Thu, 8 Oct 2020 21:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 04:42:41.965383
- Title: A Study in Improving BLEU Reference Coverage with Diverse Automatic
Paraphrasing
- Title(参考訳): 逆自動パラフレーズによるBLEU参照被覆の改善に関する研究
- Authors: Rachel Bawden and Biao Zhang and Lisa Yankovskaya and Andre T\"attar
and Matt Post
- Abstract要約: 多様な参照を自動的に生成することで、有効な翻訳の空間をよりよく把握できるかどうかを考察する。
WMT19メトリクスタスクの英語内言語方向に関する実験により,パラフレーズ参照を用いることでBLEUが向上することが確認された。
また,これらのパラフレーズがMT出力に最も関係のある空間を特に対象とすれば,より良い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 17.97091967577631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a long-perceived shortcoming in the typical use of BLEU: its
reliance on a single reference. Using modern neural paraphrasing techniques, we
study whether automatically generating additional diverse references can
provide better coverage of the space of valid translations and thereby improve
its correlation with human judgments. Our experiments on the into-English
language directions of the WMT19 metrics task (at both the system and sentence
level) show that using paraphrased references does generally improve BLEU, and
when it does, the more diverse the better. However, we also show that better
results could be achieved if those paraphrases were to specifically target the
parts of the space most relevant to the MT outputs being evaluated. Moreover,
the gains remain slight even when human paraphrases are used, suggesting
inherent limitations to BLEU's capacity to correctly exploit multiple
references. Surprisingly, we also find that adequacy appears to be less
important, as shown by the high results of a strong sampling approach, which
even beats human paraphrases when used with sentence-level BLEU.
- Abstract(参考訳): BLEUの典型的使用における長年の欠点について検討する。
現代のニューラル・パラフレーズ法を用いて,多種多様な参照を自動的に生成することで,有効な翻訳の空間をよりよく把握し,人間の判断との相関性を向上させることができるかを検討する。
WMT19メトリクスタスクの英語内言語方向(システムレベルと文レベルの両方)についての実験を行ったところ、パラフレーズ参照を用いることでBLEUが向上し、さらに多種多様になることがわかった。
しかし,これらのパラフレーズが評価対象のmt出力に最も関係のある空間を対象とする場合,より良い結果が得られることを示した。
さらに、ヒトのパラフレーズを使用した場合でもゲインはわずかであり、複数の参照を正しく活用するBLEUの能力に固有の制限が示唆されている。
意外なことに,文章レベルのBLEUを用いた場合,ヒトの言い回しに勝る強いサンプリングアプローチの結果が示すように,精度はそれほど重要ではないようだ。
関連論文リスト
- Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Learning to Selectively Learn for Weakly-supervised Paraphrase
Generation [81.65399115750054]
弱監督データを用いた高品質なパラフレーズを生成するための新しい手法を提案する。
具体的には、弱制御されたパラフレーズ生成問題に以下のように取り組む。
検索に基づく擬似パラフレーズ展開により、豊富なラベル付き並列文を得る。
提案手法は,既存の教師なしアプローチよりも大幅に改善され,教師付き最先端技術と同等の性能を示す。
論文 参考訳(メタデータ) (2021-09-25T23:31:13Z) - Measuring and Increasing Context Usage in Context-Aware Machine
Translation [64.5726087590283]
機械翻訳モデルによるコンテキストの使用を定量的にするために、新しいメトリクス、条件付き相互情報を導入します。
次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。
論文 参考訳(メタデータ) (2021-05-07T19:55:35Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z) - BLEU Neighbors: A Reference-less Approach to Automatic Evaluation [35.37178604982517]
評価は自然言語生成(NLG)モデルの開発におけるボトルネックである。
BLEUスコアをカーネル関数として使用することにより、言語品質を推定する最も近い近隣モデルであるBLEU Neighborsを提案する。
BLEU Neighborsは、自動評価エッセイで最先端のモデルを上回ります。
論文 参考訳(メタデータ) (2020-04-27T11:51:28Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。