論文の概要: T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2212.05726v1
- Date: Mon, 12 Dec 2022 06:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:12:36.579714
- Title: T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics
- Title(参考訳): T5Score: 世代評価メトリクスの識別的微調整
- Authors: Yiwei Qin, Weizhe Yuan, Graham Neubig, Pengfei Liu
- Abstract要約: 我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 94.69907794006826
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern embedding-based metrics for evaluation of generated text generally
fall into one of two paradigms: discriminative metrics that are trained to
directly predict which outputs are of higher quality according to supervised
human annotations, and generative metrics that are trained to evaluate text
based on the probabilities of a generative model. Both have their advantages;
discriminative metrics are able to directly optimize for the problem of
distinguishing between good and bad outputs, while generative metrics can be
trained using abundant raw text. In this paper, we present a framework that
combines the best of both worlds, using both supervised and unsupervised
signals from whatever data we have available. We operationalize this idea by
training T5Score, a metric that uses these training signals with mT5 as the
backbone. We perform an extensive empirical comparison with other existing
metrics on 5 datasets, 19 languages and 280 systems, demonstrating the utility
of our method. Experimental results show that: T5Score achieves the best
performance on all datasets against existing top-scoring metrics at the segment
level. We release our code and models at https://github.com/qinyiwei/T5Score.
- Abstract(参考訳): 現代のテキスト評価のための埋め込みベースのメトリクスは、一般的に2つのパラダイムの1つに該当する: 教師付き人間のアノテーションに従ってどの出力が高品質かを直接予測するために訓練された差別的メトリクスと、生成モデルの確率に基づいてテキストを評価するために訓練された生成的メトリクスである。
判別メトリクスは良いアウトプットと悪いアウトプットを区別する問題を直接最適化することができ、生成メトリクスは豊富な生のテキストを使ってトレーニングすることができる。
本稿では,現在利用可能なデータからの教師なし信号と教師なし信号の両方を用いて,両世界の長所を組み合わせたフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
5つのデータセット、19の言語、280のシステムで既存のメトリクスと比較し、本手法の有用性を実証した。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
コードとモデルはhttps://github.com/qinyiwei/t5scoreでリリースします。
関連論文リスト
- TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks [44.801746603656504]
TIGERScore は textbfInstruction textbfGuidance に従って textbfExplainable および textbfReference-free 評価を行う。
我々のメトリクスは、厳密にキュレートされた命令チューニングデータセット MetricInstruct に基づいて訓練された LLaMA-2 に基づいている。
論文 参考訳(メタデータ) (2023-10-01T18:01:51Z) - Generating and Imputing Tabular Data via Diffusion and Flow-based
Gradient-Boosted Trees [11.732842929815401]
タブラルデータは取得が困難で、値が失われる。
本稿では,混合型(連続型および分類型)データの生成と計算のための新しいアプローチを提案する。
スコア関数やベクトル場をニューラルネットワークで学習する従来の手法とは対照的に,我々はXGBoostを採用する。
論文 参考訳(メタデータ) (2023-09-18T17:49:09Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。