論文の概要: Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation
- arxiv url: http://arxiv.org/abs/2306.03866v1
- Date: Tue, 6 Jun 2023 17:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 14:16:43.265339
- Title: Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation
- Title(参考訳): テキスト生成のための自動メトリクスからの選好評価における誤りの補正
- Authors: Jan Deriu, Pius von D\"aniken, Don Tuggener, Mark Cieliebak
- Abstract要約: 本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
- 参考スコア(独自算出の注目度): 4.661309379738428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A major challenge in the field of Text Generation is evaluation: Human
evaluations are cost-intensive, and automated metrics often display
considerable disagreement with human judgments. In this paper, we propose a
statistical model of Text Generation evaluation that accounts for the
error-proneness of automated metrics when used to generate preference rankings
between system outputs. We show that existing automated metrics are generally
over-confident in assigning significant differences between systems in this
setting. However, our model enables an efficient combination of human and
automated ratings to remedy the error-proneness of the automated metrics. We
show that using this combination, we only require about 50% of the human
annotations typically used in evaluations to arrive at robust and statistically
significant results while yielding the same evaluation outcome as the pure
human evaluation in 95% of cases. We showcase the benefits of approach for
three text generation tasks: dialogue systems, machine translation, and text
summarization.
- Abstract(参考訳): テキスト生成の分野での大きな課題は、評価である: 人間の評価はコスト集約的であり、自動化されたメトリクスは人間の判断とかなりの相違を示すことが多い。
本稿では,システム出力間の選好ランキングを生成する際に,自動メトリクスの誤り傾向を考慮したテキスト生成評価の統計的モデルを提案する。
既存の自動メトリクスは、この設定でシステム間で大きな違いを割り当てるのに一般的に過信であることを示す。
しかし,本モデルでは,自動評価を効率よく組み合わせることで,自動評価の誤差を軽減できる。
この組み合わせを用いることで、評価に一般的に用いられる人間のアノテーションの約50%しか必要とせず、95%のケースで純粋な人間評価と同じ評価結果が得られることを示し、統計的に有意な結果を得ることができた。
本稿では,対話システム,機械翻訳,テキスト要約という3つのテキスト生成タスクに対するアプローチの利点を紹介する。
関連論文リスト
- MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - Automating Text Naturalness Evaluation of NLG Systems [0.0]
本稿では,テキストの自然性評価を自動化する試みについて述べる。
テキストサンプルのスコア付けやラベル付けに人間の参加者に頼る代わりに,プロセスの自動化を提案する。
テキストの確率分数を分析し、生成的および識別的モデルのサイズの影響を観察する。
論文 参考訳(メタデータ) (2020-06-23T18:48:33Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - Human or Machine: Automating Human Likeliness Evaluation of NLG Texts [0.0]
そこで,本研究では,人間によって書かれたように思われる手法を用いて,出力サンプルのパーセンテージを示す,人間の類似度スコアを提案する。
以下に示すように、本評価手法の最適設定を見つけるために、人書きテキストと機械生成テキストの実証分析を行う。
論文 参考訳(メタデータ) (2020-06-05T00:57:52Z) - A Human Evaluation of AMR-to-English Generation Systems [13.10463139842285]
本報告では, 流速と精度のスコアを収集し, 誤りの分類を行う新しい評価結果について述べる。
本稿では,これらのシステムの相対的品質と,自動測定値との比較について論じる。
論文 参考訳(メタデータ) (2020-04-14T21:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。