論文の概要: Reference-free Evaluation Metrics for Text Generation: A Survey
- arxiv url: http://arxiv.org/abs/2501.12011v1
- Date: Tue, 21 Jan 2025 10:05:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:07.017442
- Title: Reference-free Evaluation Metrics for Text Generation: A Survey
- Title(参考訳): テキスト生成のための基準フリー評価指標:調査
- Authors: Takumi Ito, Kees van Deemter, Jun Suzuki,
- Abstract要約: 自然言語生成システムにいくつかの自動評価指標が提案されている。
自動評価の最も一般的なアプローチは、モデル出力と人間によって書かれた金標準基準を比較する基準ベースの計量を使うことである。
近年、様々な基準のないメトリクスが開発されている。
- 参考スコア(独自算出の注目度): 18.512882012973005
- License:
- Abstract: A number of automatic evaluation metrics have been proposed for natural language generation systems. The most common approach to automatic evaluation is the use of a reference-based metric that compares the model's output with gold-standard references written by humans. However, it is expensive to create such references, and for some tasks, such as response generation in dialogue, creating references is not a simple matter. Therefore, various reference-free metrics have been developed in recent years. In this survey, which intends to cover the full breadth of all NLG tasks, we investigate the most commonly used approaches, their application, and their other uses beyond evaluating models. The survey concludes by highlighting some promising directions for future research.
- Abstract(参考訳): 自然言語生成システムにいくつかの自動評価指標が提案されている。
自動評価の最も一般的なアプローチは、モデル出力と人間によって書かれた金標準基準を比較する基準ベースの計量を使うことである。
しかし、そのような参照を作成するのは高価であり、対話における応答生成のようなタスクでは、参照を作成することは簡単な問題ではない。
そのため、近年は様々な基準のないメトリクスが開発されている。
本調査は,すべての NLG タスクの全幅をカバーすることを目的として,最も一般的に使用されているアプローチ,それらの応用,およびモデル評価以外の用途について検討する。
調査は、今後の研究に向けたいくつかの有望な方向性を強調して締めくくっている。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Reference-based Metrics Disprove Themselves in Question Generation [17.83616985138126]
人手による参照を用いることで、参照ベースのメトリクスの有効性を保証できないことがわかった。
優れた測定基準は、生成した質問に比較して、人間公認の質問を格付けすることが期待されている。
本研究では, 自然性, 応答性, 複雑性などの多次元的基準からなる基準自由度尺度を提案する。
論文 参考訳(メタデータ) (2024-03-18T20:47:10Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - CTRLEval: An Unsupervised Reference-Free Metric for Evaluating
Controlled Text Generation [85.03709740727867]
制御されたテキスト生成モデルを評価するために,教師なし参照自由度であるEvalを提案する。
Evalは、事前訓練された言語モデルから生成確率をモデルトレーニングなしで組み立てる。
実験の結果,我々の測定値は他の基準値よりも人間の判断と高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2022-04-02T13:42:49Z) - Revisiting the Evaluation Metrics of Paraphrase Generation [35.6803390044542]
多くの既存のパラフレーズ生成モデルは、生成されたパラフレーズを評価するために参照ベースのメトリクスを使用する。
本稿では、生成されたパラフレーズの品質を反映できる参照フリーメトリックであるBBScoreを提案する。
論文 参考訳(メタデータ) (2022-02-17T07:18:54Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - Language Model Augmented Relevance Score [2.8314622515446835]
Language Model Augmented Relevance Score (MARS)は、NLG評価のための新しい文脈対応メトリックである。
MARSは、強化学習によってガイドされる既製の言語モデルを使用して、生成コンテキストと利用可能な人間の参照の両方を考慮した拡張参照を生成する。
論文 参考訳(メタデータ) (2021-08-19T03:59:23Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。