論文の概要: CTRLEval: An Unsupervised Reference-Free Metric for Evaluating
Controlled Text Generation
- arxiv url: http://arxiv.org/abs/2204.00862v1
- Date: Sat, 2 Apr 2022 13:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 13:10:42.742303
- Title: CTRLEval: An Unsupervised Reference-Free Metric for Evaluating
Controlled Text Generation
- Title(参考訳): CTRLEval: 制御されたテキスト生成を評価するための教師なし参照フリーメトリック
- Authors: Pei Ke, Hao Zhou, Yankai Lin, Peng Li, Jie Zhou, Xiaoyan Zhu, Minlie
Huang
- Abstract要約: 制御されたテキスト生成モデルを評価するために,教師なし参照自由度であるEvalを提案する。
Evalは、事前訓練された言語モデルから生成確率をモデルトレーニングなしで組み立てる。
実験の結果,我々の測定値は他の基準値よりも人間の判断と高い相関関係があることが判明した。
- 参考スコア(独自算出の注目度): 85.03709740727867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing reference-free metrics have obvious limitations for evaluating
controlled text generation models. Unsupervised metrics can only provide a
task-agnostic evaluation result which correlates weakly with human judgments,
whereas supervised ones may overfit task-specific data with poor generalization
ability to other datasets. In this paper, we propose an unsupervised
reference-free metric called CTRLEval, which evaluates controlled text
generation from different aspects by formulating each aspect into multiple text
infilling tasks. On top of these tasks, the metric assembles the generation
probabilities from a pre-trained language model without any model training.
Experimental results show that our metric has higher correlations with human
judgments than other baselines, while obtaining better generalization of
evaluating generated texts from different models and with different qualities.
- Abstract(参考訳): 既存の参照フリーメトリクスは、制御されたテキスト生成モデルを評価するための明確な制限がある。
教師なしメトリクスは、人間の判断と弱く相関するタスク非依存な評価結果しか提供できないが、教師なしメトリクスは、他のデータセットに対する一般化能力の悪いタスク固有データに過剰に適合する可能性がある。
本稿では,CTRLEvalと呼ばれる非教師付き参照フリーメトリックを提案し,各アスペクトを複数のテキスト入力タスクに定式化することにより,異なる側面から制御されたテキスト生成を評価する。
これらのタスクに加えて、メトリックはモデルトレーニングなしで事前訓練された言語モデルから生成確率を組み立てる。
実験結果から,本尺度は他の基準値よりも高い相関性を示し,異なるモデルと異なる品質で生成したテキストのより優れた一般化が得られた。
関連論文リスト
- Reproducing the Metric-Based Evaluation of a Set of Controllable Text Generation Techniques [5.011488335517782]
計量に基づく評価の再実行は、人間による評価よりも、より簡単で、結果がより近くなるべきである。
しかし、このような評価の再実行は、必ずしも元の結果と同じ結果を生成するわけではなく、元の成果の報告における誤りを明らかにすることができる。
論文 参考訳(メタデータ) (2024-05-13T16:02:57Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。