論文の概要: A Gold Standard Methodology for Evaluating Accuracy in Data-To-Text
Systems
- arxiv url: http://arxiv.org/abs/2011.03992v1
- Date: Sun, 8 Nov 2020 14:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:28:50.916765
- Title: A Gold Standard Methodology for Evaluating Accuracy in Data-To-Text
Systems
- Title(参考訳): データ・テキスト・システムの精度評価のためのゴールドスタンダード手法
- Authors: Craig Thomson and Ehud Reiter
- Abstract要約: 本稿では,生成したテキストの精度を高精度に評価する手法を提案する。
我々は,コンピュータが生成したバスケットボールのサマリーの精度を評価するために方法論を用いた。
- 参考スコア(独自算出の注目度): 0.190365714903665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most Natural Language Generation systems need to produce accurate texts. We
propose a methodology for high-quality human evaluation of the accuracy of
generated texts, which is intended to serve as a gold-standard for accuracy
evaluations of data-to-text systems. We use our methodology to evaluate the
accuracy of computer generated basketball summaries. We then show how our gold
standard evaluation can be used to validate automated metrics
- Abstract(参考訳): ほとんどの自然言語生成システムは正確なテキストを生成する必要がある。
本稿では,データ・ツー・テキストシステムの精度評価のための金本位制として機能することを目的とした,生成テキストの精度の高品質な評価手法を提案する。
我々は,コンピュータが生成したバスケットボールのサマリーの精度を評価するために方法論を用いた。
そして、私たちのゴールド標準評価が自動メトリクスの検証にどのように役立つかを示します。
関連論文リスト
- Rethinking HTG Evaluation: Bridging Generation and Recognition [7.398476020996681]
我々は、HTG評価に適した3つの測度、textHTG_textstyle $, $ textHTG_textOOV $を紹介します。
このメトリクスは、手書き文字認識と文字識別モデルの認識誤り/精度に依存している。
以上の結果から,我々のメトリクスは情報に富み,HTGの標準化された評価プロトコルの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-04T13:15:10Z) - Check-Eval: A Checklist-based Approach for Evaluating Text Quality [3.031375888004876]
textscCheck-Evalは、参照なしと参照依存の両方の評価方法として使用できる。
textscCheck-Evalは、既存のメトリクスと比較して、人間の判断と高い相関性を達成する。
論文 参考訳(メタデータ) (2024-07-19T17:14:16Z) - Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文 参考訳(メタデータ) (2023-06-06T17:09:29Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z) - Automating Text Naturalness Evaluation of NLG Systems [0.0]
本稿では,テキストの自然性評価を自動化する試みについて述べる。
テキストサンプルのスコア付けやラベル付けに人間の参加者に頼る代わりに,プロセスの自動化を提案する。
テキストの確率分数を分析し、生成的および識別的モデルのサイズの影響を観察する。
論文 参考訳(メタデータ) (2020-06-23T18:48:33Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。