論文の概要: Favi-Score: A Measure for Favoritism in Automated Preference Ratings for Generative AI Evaluation
- arxiv url: http://arxiv.org/abs/2406.01131v1
- Date: Mon, 3 Jun 2024 09:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 01:48:31.626210
- Title: Favi-Score: A Measure for Favoritism in Automated Preference Ratings for Generative AI Evaluation
- Title(参考訳): Favi-Score:AI評価のための自動選好評価における相違点の測定
- Authors: Pius von Däniken, Jan Deriu, Don Tuggener, Mark Cieliebak,
- Abstract要約: 選好指標に好意の形式的定義を導入する。
最終システムランキングの誤差に好意が強く関係していることが示される。
そこで本稿では,手話の精度と好ましさの両面から,嗜好に基づく指標を評価することを提案する。
- 参考スコア(独自算出の注目度): 10.776099974329647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI systems have become ubiquitous for all kinds of modalities, which makes the issue of the evaluation of such models more pressing. One popular approach is preference ratings, where the generated outputs of different systems are shown to evaluators who choose their preferences. In recent years the field shifted towards the development of automated (trained) metrics to assess generated outputs, which can be used to create preference ratings automatically. In this work, we investigate the evaluation of the metrics themselves, which currently rely on measuring the correlation to human judgments or computing sign accuracy scores. These measures only assess how well the metric agrees with the human ratings. However, our research shows that this does not tell the whole story. Most metrics exhibit a disagreement with human system assessments which is often skewed in favor of particular text generation systems, exposing a degree of favoritism in automated metrics. This paper introduces a formal definition of favoritism in preference metrics, and derives the Favi-Score, which measures this phenomenon. In particular we show that favoritism is strongly related to errors in final system rankings. Thus, we propose that preference-based metrics ought to be evaluated on both sign accuracy scores and favoritism.
- Abstract(参考訳): 生成型AIシステムは、あらゆる種類のモダリティに対してユビキタスなものとなり、そのようなモデルの評価の問題はより強固になっている。
1つの一般的なアプローチは選好評価であり、それぞれの選好を選択する評価者に異なるシステムの出力が示される。
近年、フィールドは自動(トレーニングされた)メトリクスの開発に移行し、生成したアウトプットを評価した。
本研究では,現在人間の判断と相関や計算符号の精度のスコアに頼っている指標自体の評価について検討する。
これらの測定は、測定値が人間の評価とどの程度うまく一致しているかを評価するだけである。
しかし、我々の研究は、これが全体像を示さないことを示している。
ほとんどのメトリクスは、特定のテキスト生成システムに好まれる人間のシステムアセスメントと不一致を示しており、自動化されたメトリクスにある程度の好意を呈している。
本稿では、選好指標における好意の形式的定義を紹介し、この現象を測るファビスコアを導出する。
特に、最終システムランキングの誤差に好意が強く関係していることが示される。
そこで本稿では,手話の精度と好ましさの両面から,嗜好に基づく指標を評価することを提案する。
関連論文リスト
- What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文 参考訳(メタデータ) (2023-06-06T17:09:29Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - To Ship or Not to Ship: An Extensive Evaluation of Automatic Metrics for
Machine Translation [5.972205906525993]
システムレベルの品質ランク付けを行う上で,どの指標が最も精度が高いかを検討する。
BLEUの唯一の使用は、改善されたモデルの開発に悪影響を及ぼしたことを示す。
論文 参考訳(メタデータ) (2021-07-22T17:22:22Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。