論文の概要: SEScore2: Retrieval Augmented Pretraining for Text Generation Evaluation
- arxiv url: http://arxiv.org/abs/2212.09305v1
- Date: Mon, 19 Dec 2022 09:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:39:04.226941
- Title: SEScore2: Retrieval Augmented Pretraining for Text Generation Evaluation
- Title(参考訳): SEScore2: テキスト生成評価のための検索事前トレーニング
- Authors: Wenda Xu, Xian Qian, Mingxuan Wang, Lei Li, William Yang Wang
- Abstract要約: SEScore2は、100万スケールの合成データセットを事前訓練したモデルベースメトリックである。
SEScore2は、人間の評価監督なしに、人間の判断と高い相関を達成している。
SEScore2を3言語で4つのテキスト生成タスクで評価する。
- 参考スコア(独自算出の注目度): 93.19166902594168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is it possible to leverage large scale raw and raw parallel corpora to build
a general learned metric? Existing learned metrics have gaps to human
judgements, are model-dependent or are limited to the domains or tasks where
human ratings are available. In this paper, we propose SEScore2, a model-based
metric pretrained over million-scale synthetic dataset constructed by our novel
retrieval augmented data synthesis pipeline. SEScore2 achieves high correlation
to human judgements without any human rating supervisions. Importantly, our
unsupervised SEScore2 can outperform supervised metrics, which are trained on
the News human ratings, at the TED domain. We evaluate SEScore2 over four text
generation tasks across three languages. SEScore2 outperforms all prior
unsupervised evaluation metrics in machine translation, speech translation,
data-to-text and dialogue generation, with average Kendall improvements 0.158.
SEScore2 even outperforms SOTA supervised BLEURT at data-to-text, dialogue
generation and overall correlation.
- Abstract(参考訳): 大規模生・生の並列コーパスを利用して一般的な学習指標を構築することは可能か?
既存の学習メトリクスは、人間の判断にギャップがあるか、モデルに依存しているか、あるいは人間が評価できる領域やタスクに限定されている。
本稿では,新しいデータ合成パイプラインによって構築された100万スケールの合成データセットを事前訓練したモデルベースメトリックであるSEScore2を提案する。
SEScore2は、人間の評価監督なしに、人間の判断と高い相関を達成している。
重要なことに、私たちの教師なしのsescore2は、tedドメインのnews human ratingsでトレーニングされた教師なしメトリクスよりも優れています。
SEScore2を3言語で4つのテキスト生成タスクで評価する。
SEScore2は、機械翻訳、音声翻訳、データ・トゥ・テキスト、対話生成における以前の教師なし評価指標をすべて上回り、平均的なKendallの改善は0.158である。
SEScore2は、データ・トゥ・テキスト、対話生成、全体的な相関において、SOTAが管理するBLEURTよりも優れている。
関連論文リスト
- KEST: Kernel Distance Based Efficient Self-Training for Improving
Controllable Text Generation [24.47531522553703]
我々は,これらの問題に対処するための,新規かつ効率的な自己学習フレームワークであるKESTを提案する。
KESTは、標準的なクロスエントロピーではなくカーネルベースの損失を利用して、共有非自己回帰生成器によって生成されたソフトな擬似テキストから学習する。
3つの制御可能な生成タスクの実験により、KESTは、複数の強いベースラインに対して、同等のテキスト流速と生成の多様性を維持しながら、制御精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-06-17T19:40:57Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data
Generation for Cross-Lingual Learning in Tweet Intimacy Prediction [3.1798318618973362]
本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。
公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。
論文 参考訳(メタデータ) (2023-03-02T12:18:53Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。