論文の概要: SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes
- arxiv url: http://arxiv.org/abs/2212.09305v2
- Date: Fri, 7 Jul 2023 17:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:55:51.247548
- Title: SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes
- Title(参考訳): SESCORE2: 現実的誤りの合成によるテキスト生成評価の学習
- Authors: Wenda Xu, Xian Qian, Mingxuan Wang, Lei Li, William Yang Wang
- Abstract要約: テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
- 参考スコア(独自算出の注目度): 93.19166902594168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is it possible to train a general metric for evaluating text generation
quality without human annotated ratings? Existing learned metrics either
perform unsatisfactorily across text generation tasks or require human ratings
for training on specific tasks. In this paper, we propose SESCORE2, a
self-supervised approach for training a model-based metric for text generation
evaluation. The key concept is to synthesize realistic model mistakes by
perturbing sentences retrieved from a corpus. The primary advantage of the
SESCORE2 is its ease of extension to many other languages while providing
reliable severity estimation. We evaluate SESCORE2 and previous methods on four
text generation tasks across three languages. SESCORE2 outperforms unsupervised
metric PRISM on four text generation evaluation benchmarks, with a Kendall
improvement of 0.078. Surprisingly, SESCORE2 even outperforms the supervised
BLEURT and COMET on multiple text generation tasks. The code and data are
available at https://github.com/xu1998hz/SEScore2.
- Abstract(参考訳): 注釈付評価なしでテキスト生成品質を評価するための一般的な指標を訓練することは可能か?
既存の学習メトリクスは、テキスト生成タスク間で不満足に機能するか、特定のタスクでトレーニングするために人間の評価を必要とする。
本稿では,テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
SESCORE2の主な利点は、信頼性の高い重大度推定を提供しながら、他の多くの言語への拡張を容易にすることである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
SESCORE2は、4つのテキスト生成評価ベンチマークで教師なしのPRISMより優れており、Kendallの改善は0.078である。
驚いたことに、SESCORE2は複数のテキスト生成タスクにおいて教師付きBLEURTとCOMETよりも優れています。
コードとデータはhttps://github.com/xu1998hz/sescore2で入手できる。
関連論文リスト
- CEval: A Benchmark for Evaluating Counterfactual Text Generation [2.899704155417792]
本稿では,テキスト生成手法の比較のためのベンチマークであるCEvalを提案する。
我々の実験では、偽造テキストを生成するための完璧な方法が見つからなかった。
CEvalをオープンソースのPythonライブラリとして利用できるようにすることで、コミュニティはより多くのメソッドをコントリビュートすることを推奨しています。
論文 参考訳(メタデータ) (2024-04-26T15:23:47Z) - TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks [44.801746603656504]
TIGERScore は textbfInstruction textbfGuidance に従って textbfExplainable および textbfReference-free 評価を行う。
我々のメトリクスは、厳密にキュレートされた命令チューニングデータセット MetricInstruct に基づいて訓練された LLaMA-2 に基づいている。
論文 参考訳(メタデータ) (2023-10-01T18:01:51Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。