論文の概要: Layer or Representation Space:What makes BERT-based Evaluation Metrics
Robust?
- arxiv url: http://arxiv.org/abs/2209.02317v1
- Date: Tue, 6 Sep 2022 09:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:45:42.143193
- Title: Layer or Representation Space:What makes BERT-based Evaluation Metrics
Robust?
- Title(参考訳): レイヤまたは表現空間:BERTベースの評価メトリクスはなぜロバストなのか?
- Authors: Doan Nam Long Vu, Nafise Sadat Moosavi, Steffen Eger
- Abstract要約: 本稿では,テキスト生成において最もポピュラーな埋め込みベースの指標であるBERTScoreのロバスト性について検討する。
a) 入力ノイズや未知のトークンの量が増加すると, 標準ベンチマークにおける人体評価との相関が最も高い埋め込みベースのメトリクスが, 最小の相関を持つことを示す。
- 参考スコア(独自算出の注目度): 29.859455320349866
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The evaluation of recent embedding-based evaluation metrics for text
generation is primarily based on measuring their correlation with human
evaluations on standard benchmarks. However, these benchmarks are mostly from
similar domains to those used for pretraining word embeddings. This raises
concerns about the (lack of) generalization of embedding-based metrics to new
and noisy domains that contain a different vocabulary than the pretraining
data. In this paper, we examine the robustness of BERTScore, one of the most
popular embedding-based metrics for text generation. We show that (a) an
embedding-based metric that has the highest correlation with human evaluations
on a standard benchmark can have the lowest correlation if the amount of input
noise or unknown tokens increases, (b) taking embeddings from the first layer
of pretrained models improves the robustness of all metrics, and (c) the
highest robustness is achieved when using character-level embeddings, instead
of token-based embeddings, from the first layer of the pretrained model.
- Abstract(参考訳): 最近のテキスト生成のための埋め込みベース評価指標の評価は、主に標準ベンチマークによる人間評価との相関の測定に基づいている。
しかし、これらのベンチマークは、主に単語埋め込みの事前学習に使われるものと同様のドメインに由来する。
このことは、埋め込みベースのメトリクスを事前学習データとは異なる語彙を含む新しい、ノイズの多い領域に一般化することへの懸念を引き起こす。
本稿では,テキスト生成のための埋め込みベースメトリクスとして最も普及しているbertscoreのロバスト性について検討する。
私たちはそれを示します
(a)標準ベンチマークで人間の評価と最も高い相関関係を持つ埋め込み基準は、入力ノイズや未知のトークンの量が増加すると最も低い相関を持つことができる。
(b)事前学習されたモデルの第一層からの埋め込みは、すべてのメトリクスのロバスト性を改善する。
(c) 事前学習モデルの第一層から,トークンベースの埋め込みではなく,文字レベルの埋め込みを使用する場合に,高いロバスト性が達成される。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Exploring Category Structure with Contextual Language Models and Lexical
Semantic Networks [0.0]
我々は、典型値の予測のために、CLMを探索するためのより広い範囲の手法を試験する。
BERTを用いた実験では,CLMプローブの適切な利用の重要性が示された。
その結果, この課題における多義性の重要性が浮き彫りとなった。
論文 参考訳(メタデータ) (2023-02-14T09:57:23Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - Exploiting Class Labels to Boost Performance on Embedding-based Text
Classification [16.39344929765961]
異なる種類の埋め込みは、テキスト分類に使用される機能として、最近デファクトスタンダードになっている。
本稿では,単語の埋め込みを計算する際に,高頻度のカテゴリー排他語を重み付け可能な重み付け方式TF-CRを提案する。
論文 参考訳(メタデータ) (2020-06-03T08:53:40Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。