Fugu-MT 論文翻訳(概要): Reproducibility Issues for BERT-based Evaluation Metrics

論文の概要: Reproducibility Issues for BERT-based Evaluation Metrics

arxiv url: http://arxiv.org/abs/2204.00004v1
Date: Wed, 30 Mar 2022 20:35:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-05 03:21:08.734180
Title: Reproducibility Issues for BERT-based Evaluation Metrics
Title（参考訳）: BERTによる評価指標の再現性問題
Authors: Yanran Chen and Jonas Belouadi and Steffen Eger
Abstract要約: BERTをベースとした最近の4つのメトリクスの結果とクレームを再現できるかどうかを問う。クレームと結果の再現は、文書化されていない大量の前処理のために失敗することが多い。プリプロセッシングは特に高い屈折率を持つ言語に対して大きな効果があることがわかった。
参考スコア（独自算出の注目度）: 19.792304805269094
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reproducibility is of utmost concern in machine learning and natural language processing (NLP). In the field of natural language generation (especially machine translation), the seminal paper of Post (2018) has pointed out problems of reproducibility of the dominant metric, BLEU, at the time of publication. Nowadays, BERT-based evaluation metrics considerably outperform BLEU. In this paper, we ask whether results and claims from four recent BERT-based metrics can be reproduced. We find that reproduction of claims and results often fails because of (i) heavy undocumented preprocessing involved in the metrics, (ii) missing code and (iii) reporting weaker results for the baseline metrics. (iv) In one case, the problem stems from correlating not to human scores but to a wrong column in the csv file, inflating scores by 5 points. Motivated by the impact of preprocessing, we then conduct a second study where we examine its effects more closely (for one of the metrics). We find that preprocessing can have large effects, especially for highly inflectional languages. In this case, the effect of preprocessing may be larger than the effect of the aggregation mechanism (e.g., greedy alignment vs. Word Mover Distance).
Abstract（参考訳）: 再現性は、機械学習と自然言語処理(NLP)において最も懸念されている。自然言語生成(特に機械翻訳)の分野では、ポスト (2018) のセミナル論文では、出版当時、支配的な計量であるBLEUの再現性の問題が指摘されている。現在、BERTベースの評価指標はBLEUよりもかなり優れています。本稿では,最近のBERTベースのメトリクス4つの結果とクレームを再現できるかどうかを問う。クレームと結果の再現は、しばしば失敗する。 (i)メトリクスにかかわる重い未文書前処理 (ii)欠落コード、及び (iii)基準メトリクスのより弱い結果を報告すること。 (4)ある場合において、問題は人間のスコアではなく、csvファイル内の間違ったカラムに関連し、スコアを5ポイント膨らませることに起因している。次に、前処理の影響に動機づけられ、その効果をより詳細に検討する(メトリクスのひとつについて)第2の研究を行います。プリプロセッシングは特に高い屈折率を持つ言語に対して大きな効果がある。この場合、前処理の効果はアグリゲーション機構の効果よりも大きいかもしれない(例:greedy alignment vs. Word Mover Distance)。

関連論文リスト

The Medium Is Not the Message: Deconfounding Text Embeddings via Linear Concept Erasure [91.01653854955286]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文参考訳（メタデータ） (2025-07-01T23:17:12Z)
Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents [64.43980129731587]
因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。 CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。 3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
論文参考訳（メタデータ） (2025-03-11T17:59:00Z)
Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文参考訳（メタデータ） (2023-10-02T18:52:35Z)
Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文参考訳（メタデータ） (2023-08-06T14:49:26Z)
Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。我々は,単語順序の重要性を維持するために強制的無効化を提案する。実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-04-11T13:42:10Z)
On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文参考訳（メタデータ） (2022-12-20T06:24:25Z)
The Role of Complex NLP in Transformers for Text Ranking? [2.227822766415462]
本研究は, BERTの再分類の有効性において, 統語的側面が重要な役割を果たさないことを示す。クエリパスのクロスアテンションや、集約されたコンテキストに基づいて単語の意味をキャプチャするよりリッチな埋め込みなど、他のメカニズムを指摘する。
論文参考訳（メタデータ） (2022-07-06T08:54:18Z)
The Topological BERT: Transforming Attention into Topology for Natural Language Processing [0.0]
本稿では,トポロジカルデータ解析を用いたテキスト分類器を提案する。我々は、その分類器への唯一の入力として、BERTのアテンションマップをアテンショングラフに変換する。このモデルは、スパムとハムメッセージの区別、文が文法的に正しいかどうかの認識、あるいは映画レビューを否定的あるいは肯定的な評価といったタスクを解くことができる。
論文参考訳（メタデータ） (2022-06-30T11:25:31Z)
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文参考訳（メタデータ） (2020-10-26T13:57:20Z)
Exploring BERT's Sensitivity to Lexical Cues using Tests from Semantic Priming [8.08493736237816]
本研究は, セマンティックプライミング(セマンティックプライミング)を用いて, 事前学習したBERTモデルを解析するケーススタディである。 BERTもまた「価格」を示し、文脈が関連語を含む場合と非関連語を含む場合の確率がより大きいことを予測している。フォローアップ分析では、コンテキストがより情報的になるにつれて、BERTは関連した素語に気を散らす傾向にある。
論文参考訳（メタデータ） (2020-10-06T20:30:59Z)
Adv-BERT: BERT is not robust on misspellings! Generating nature adversarial samples on BERT [95.88293021131035]
しかし、悪意のある敵のインスタンスがしばしば存在するのではなく、テクトナチュラルなシナリオでモデルがどのように機能するかは定かではない。この研究は、NLPにおける最先端のTransformerスタイルモデルであるBERTの、ノイズの多いデータを扱うための頑健さを体系的に探求する。
論文参考訳（メタデータ） (2020-02-27T22:07:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。