論文の概要: SEScore2: Retrieval Augmented Pretraining for Text Generation Evaluation
- arxiv url: http://arxiv.org/abs/2212.09305v1
- Date: Mon, 19 Dec 2022 09:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:39:04.226941
- Title: SEScore2: Retrieval Augmented Pretraining for Text Generation Evaluation
- Title(参考訳): SEScore2: テキスト生成評価のための検索事前トレーニング
- Authors: Wenda Xu, Xian Qian, Mingxuan Wang, Lei Li, William Yang Wang
- Abstract要約: SEScore2は、100万スケールの合成データセットを事前訓練したモデルベースメトリックである。
SEScore2は、人間の評価監督なしに、人間の判断と高い相関を達成している。
SEScore2を3言語で4つのテキスト生成タスクで評価する。
- 参考スコア(独自算出の注目度): 93.19166902594168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is it possible to leverage large scale raw and raw parallel corpora to build
a general learned metric? Existing learned metrics have gaps to human
judgements, are model-dependent or are limited to the domains or tasks where
human ratings are available. In this paper, we propose SEScore2, a model-based
metric pretrained over million-scale synthetic dataset constructed by our novel
retrieval augmented data synthesis pipeline. SEScore2 achieves high correlation
to human judgements without any human rating supervisions. Importantly, our
unsupervised SEScore2 can outperform supervised metrics, which are trained on
the News human ratings, at the TED domain. We evaluate SEScore2 over four text
generation tasks across three languages. SEScore2 outperforms all prior
unsupervised evaluation metrics in machine translation, speech translation,
data-to-text and dialogue generation, with average Kendall improvements 0.158.
SEScore2 even outperforms SOTA supervised BLEURT at data-to-text, dialogue
generation and overall correlation.
- Abstract(参考訳): 大規模生・生の並列コーパスを利用して一般的な学習指標を構築することは可能か?
既存の学習メトリクスは、人間の判断にギャップがあるか、モデルに依存しているか、あるいは人間が評価できる領域やタスクに限定されている。
本稿では,新しいデータ合成パイプラインによって構築された100万スケールの合成データセットを事前訓練したモデルベースメトリックであるSEScore2を提案する。
SEScore2は、人間の評価監督なしに、人間の判断と高い相関を達成している。
重要なことに、私たちの教師なしのsescore2は、tedドメインのnews human ratingsでトレーニングされた教師なしメトリクスよりも優れています。
SEScore2を3言語で4つのテキスト生成タスクで評価する。
SEScore2は、機械翻訳、音声翻訳、データ・トゥ・テキスト、対話生成における以前の教師なし評価指標をすべて上回り、平均的なKendallの改善は0.158である。
SEScore2は、データ・トゥ・テキスト、対話生成、全体的な相関において、SOTAが管理するBLEURTよりも優れている。
関連論文リスト
- CEval: A Benchmark for Evaluating Counterfactual Text Generation [2.899704155417792]
本稿では,テキスト生成手法の比較のためのベンチマークであるCEvalを提案する。
我々の実験では、偽造テキストを生成するための完璧な方法が見つからなかった。
CEvalをオープンソースのPythonライブラリとして利用できるようにすることで、コミュニティはより多くのメソッドをコントリビュートすることを推奨しています。
論文 参考訳(メタデータ) (2024-04-26T15:23:47Z) - TIGERScore: Towards Building Explainable Metric for All Text Generation Tasks [44.801746603656504]
TIGERScore は textbfInstruction textbfGuidance に従って textbfExplainable および textbfReference-free 評価を行う。
我々のメトリクスは、厳密にキュレートされた命令チューニングデータセット MetricInstruct に基づいて訓練された LLaMA-2 に基づいている。
論文 参考訳(メタデータ) (2023-10-01T18:01:51Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。