論文の概要: InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation
- arxiv url: http://arxiv.org/abs/2112.01589v1
- Date: Thu, 2 Dec 2021 20:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 06:53:14.114490
- Title: InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation
- Title(参考訳): InfoLM: 要約とData2Text生成を評価するための新しいメトリクス
- Authors: Pierre Colombo, Chloe Clave, Pablo Piantanida
- Abstract要約: InfoLMは、文字列ベースのメトリクスとして見ることのできる、トレーニングされていないメトリクスのファミリーです。
このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。
- 参考スコア(独自算出の注目度): 27.129551973093008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the quality of natural language generation systems through human
annotation is very expensive. Additionally, human annotation campaigns are
time-consuming and include non-reusable human labour. In practice, researchers
rely on automatic metrics as a proxy of quality. In the last decade, many
string-based metrics (e.g., BLEU) have been introduced. However, such metrics
usually rely on exact matches and thus, do not robustly handle synonyms. In
this paper, we introduce InfoLM a family of untrained metrics that can be
viewed as a string-based metric that addresses the aforementioned flaws thanks
to a pre-trained masked language model. This family of metrics also makes use
of information measures allowing the adaptation of InfoLM to various evaluation
criteria. Using direct assessment, we demonstrate that InfoLM achieves
statistically significant improvement and over $10$ points of correlation gains
in many configurations on both summarization and data2text generation.
- Abstract(参考訳): 人間のアノテーションによる自然言語生成システムの品質評価は非常に高価である。
さらに、人間のアノテーションキャンペーンは時間のかかるものであり、使用不能な人間の労働も含んでいる。
実際には、研究者は品質のプロキシとして自動メトリクスに依存しています。
過去10年間で、多くの文字列ベースのメトリクス(例えばBLEU)が導入された。
しかし、そのような測度は通常正確な一致に依存するため、同義語をしっかりと扱わない。
本稿では,事前学習されたマスキング言語モデルにより,前述の欠陥に対処する文字列ベースのメトリクスと見なすことのできる,未学習のメトリクスのファミリであるinfolmを紹介する。
このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。
直接評価を用いることで,要約とデータ2テキスト生成の両方において,infolmが統計的に有意な改善と10ドル以上の相関向上を達成できることを実証する。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - We Need to Talk About Classification Evaluation Metrics in NLP [34.73017509294468]
自然言語処理(NLP)モデルでは、一般化可能性は通常、精度、F-Measure、AUC-ROCといった標準メトリクスで測定される。
メトリクスの多様性とそれらのアプリケーションの任意性は、使用すべき最高のメトリックに対して、NLP内に合意がないことを示唆している。
ランダムガウス正規化Informednessメトリックがタスク性能の相似ベースラインであることを実証する。
論文 参考訳(メタデータ) (2024-01-08T11:40:48Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Improving Metrics for Speech Translation [1.2891210250935146]
本稿では,パラレルパラフレージング(textPara_textboth$)について紹介する。
提案手法が一般的なメトリクスに適用された場合,人間の品質知覚との相関性を大幅に改善できることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T11:01:38Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - Supervised Categorical Metric Learning with Schatten p-Norms [10.995886294197412]
そこで我々は,分類データにおける計量学習の問題に対処する手法としてCPML(CPML)を提案する。
我々は、データを表すためにValue Distance Metricを使用し、この表現に基づいて新しい距離を提案する。
次に、新しいメトリクスを効率的に学習する方法を示します。
論文 参考訳(メタデータ) (2020-02-26T01:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。