論文の概要: Reproducibility Issues for BERT-based Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2204.00004v1
- Date: Wed, 30 Mar 2022 20:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 03:21:08.734180
- Title: Reproducibility Issues for BERT-based Evaluation Metrics
- Title(参考訳): BERTによる評価指標の再現性問題
- Authors: Yanran Chen and Jonas Belouadi and Steffen Eger
- Abstract要約: BERTをベースとした最近の4つのメトリクスの結果とクレームを再現できるかどうかを問う。
クレームと結果の再現は、文書化されていない大量の前処理のために失敗することが多い。
プリプロセッシングは特に高い屈折率を持つ言語に対して大きな効果があることがわかった。
- 参考スコア(独自算出の注目度): 19.792304805269094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reproducibility is of utmost concern in machine learning and natural language
processing (NLP). In the field of natural language generation (especially
machine translation), the seminal paper of Post (2018) has pointed out problems
of reproducibility of the dominant metric, BLEU, at the time of publication.
Nowadays, BERT-based evaluation metrics considerably outperform BLEU. In this
paper, we ask whether results and claims from four recent BERT-based metrics
can be reproduced. We find that reproduction of claims and results often fails
because of (i) heavy undocumented preprocessing involved in the metrics, (ii)
missing code and (iii) reporting weaker results for the baseline metrics. (iv)
In one case, the problem stems from correlating not to human scores but to a
wrong column in the csv file, inflating scores by 5 points. Motivated by the
impact of preprocessing, we then conduct a second study where we examine its
effects more closely (for one of the metrics). We find that preprocessing can
have large effects, especially for highly inflectional languages. In this case,
the effect of preprocessing may be larger than the effect of the aggregation
mechanism (e.g., greedy alignment vs. Word Mover Distance).
- Abstract(参考訳): 再現性は、機械学習と自然言語処理(NLP)において最も懸念されている。
自然言語生成(特に機械翻訳)の分野では、ポスト (2018) のセミナル論文では、出版当時、支配的な計量であるBLEUの再現性の問題が指摘されている。
現在、BERTベースの評価指標はBLEUよりもかなり優れています。
本稿では,最近のBERTベースのメトリクス4つの結果とクレームを再現できるかどうかを問う。
クレームと結果の再現は、しばしば失敗する。
(i)メトリクスにかかわる重い未文書前処理
(ii)欠落コード、及び
(iii)基準メトリクスのより弱い結果を報告すること。
(4)ある場合において、問題は人間のスコアではなく、csvファイル内の間違ったカラムに関連し、スコアを5ポイント膨らませることに起因している。
次に、前処理の影響に動機づけられ、その効果をより詳細に検討する(メトリクスのひとつについて)第2の研究を行います。
プリプロセッシングは特に高い屈折率を持つ言語に対して大きな効果がある。
この場合、前処理の効果はアグリゲーション機構の効果よりも大きいかもしれない(例:greedy alignment vs. Word Mover Distance)。
関連論文リスト
- Making Retrieval-Augmented Language Models Robust to Irrelevant Context [60.70054129188434]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - The Role of Complex NLP in Transformers for Text Ranking? [2.227822766415462]
本研究は, BERTの再分類の有効性において, 統語的側面が重要な役割を果たさないことを示す。
クエリパスのクロスアテンションや、集約されたコンテキストに基づいて単語の意味をキャプチャするよりリッチな埋め込みなど、他のメカニズムを指摘する。
論文 参考訳(メタデータ) (2022-07-06T08:54:18Z) - The Topological BERT: Transforming Attention into Topology for Natural
Language Processing [0.0]
本稿では,トポロジカルデータ解析を用いたテキスト分類器を提案する。
我々は、その分類器への唯一の入力として、BERTのアテンションマップをアテンショングラフに変換する。
このモデルは、スパムとハムメッセージの区別、文が文法的に正しいかどうかの認識、あるいは映画レビューを否定的あるいは肯定的な評価といったタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-30T11:25:31Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Exploring BERT's Sensitivity to Lexical Cues using Tests from Semantic
Priming [8.08493736237816]
本研究は, セマンティックプライミング(セマンティックプライミング)を用いて, 事前学習したBERTモデルを解析するケーススタディである。
BERTもまた「価格」を示し、文脈が関連語を含む場合と非関連語を含む場合の確率がより大きいことを予測している。
フォローアップ分析では、コンテキストがより情報的になるにつれて、BERTは関連した素語に気を散らす傾向にある。
論文 参考訳(メタデータ) (2020-10-06T20:30:59Z) - Adv-BERT: BERT is not robust on misspellings! Generating nature
adversarial samples on BERT [95.88293021131035]
しかし、悪意のある敵のインスタンスがしばしば存在するのではなく、テクトナチュラルなシナリオでモデルがどのように機能するかは定かではない。
この研究は、NLPにおける最先端のTransformerスタイルモデルであるBERTの、ノイズの多いデータを扱うための頑健さを体系的に探求する。
論文 参考訳(メタデータ) (2020-02-27T22:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。