論文の概要: How Human is Human Evaluation? Improving the Gold Standard for NLG with
Utility Theory
- arxiv url: http://arxiv.org/abs/2205.11930v1
- Date: Tue, 24 May 2022 09:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 03:00:26.281154
- Title: How Human is Human Evaluation? Improving the Gold Standard for NLG with
Utility Theory
- Title(参考訳): 人間の評価はいかに人間か?
実用性理論によるNLGのゴールドスタンダードの改善
- Authors: Kawin Ethayarajh, Dan Jurafsky
- Abstract要約: 我々は、$textitsystem-level probabilistic Assessment$ (SPA)と呼ばれる新しい評価プロトコルを提案する。
SPAによると、アノテータは予想通り、より小さなものよりもGPT-3の変種を好んでおり、全ての比較は統計的に有意である。
我々の実験では、SPAによれば、アノテーターは予想したより小さいものよりも大きな GPT-3 の変種を好んでおり、全ての比較は統計的に有意である。
- 参考スコア(独自算出の注目度): 47.10283773005394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human ratings are treated as the gold standard in NLG evaluation. The
standard protocol is to collect ratings of generated text, average across
annotators, and then rank NLG systems by their average scores. However, little
consideration has been given as to whether this approach faithfully captures
human preferences. In this work, we analyze this standard protocol through the
lens of utility theory in economics. We first identify the implicit assumptions
it makes about annotators and find that these assumptions are often violated in
practice, in which case annotator ratings become an unfaithful reflection of
their preferences. The most egregious violations come from using Likert scales,
which provably reverse the direction of the true preference in certain cases.
We suggest improvements to the standard protocol to make it more theoretically
sound, but even in its improved form, it cannot be used to evaluate open-ended
tasks like story generation. For the latter, we propose a new evaluation
protocol called $\textit{system-level probabilistic assessment}$ (SPA). In our
experiments, we find that according to SPA, annotators prefer larger GPT-3
variants to smaller ones -- as expected -- with all comparisons being
statistically significant. In contrast, the standard protocol only yields
significant results half the time.
- Abstract(参考訳): 人間の評価はNLG評価におけるゴールドスタンダードとして扱われる。
標準のプロトコルは生成したテキストのレーティングを収集し、アノテータ間で平均を行い、平均スコアでNLGシステムにランク付けする。
しかし、このアプローチが人間の好みを忠実に捉えているかどうかについてはほとんど考慮されていない。
本稿では,経済学におけるユーティリティ理論のレンズを通して,この標準プロトコルを分析する。
まず、アノテータに関する暗黙の仮定を特定し、これらの仮定が実際にはしばしば違反されていることを見出し、アノテータの格付けが彼らの好みに対する不適切な反映となる。
最も厳格な違反は、特定のケースにおいて真の好みの方向を確実に逆転するLikertスケールを使うことである。
理論的により健全にするための標準プロトコルの改善を提案するが、改良された形式であっても、ストーリー生成のようなオープンなタスクを評価するには利用できない。
後者では、$\textit{system-level probabilistic Assessment}$ (SPA)と呼ばれる新しい評価プロトコルを提案する。
我々の実験では、SPAによれば、アノテーターは予想したより小さいものよりも大きな GPT-3 の変種を好んでおり、全ての比較は統計的に有意である。
対照的に、標準プロトコルは、半分の時間で重要な結果しか得られない。
関連論文リスト
- Reevaluation of Inductive Link Prediction [9.955225436683959]
帰納的リンク予測に現在使用されている評価プロトコルには,重大な欠陥があることが示されている。
負の集合のサイズが限られているため、単純なルールベースのベースラインは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2024-09-30T09:32:10Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - KTO: Model Alignment as Prospect Theoretic Optimization [67.44320255397506]
Kahneman & Tversky の $textitprospect theory$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚することを示している。
人間のフィードバックとLLMを協調させる目的には,これらのバイアスが暗黙的に組み込まれていることを示す。
そこで本稿では,嗜好のログ類似度を最大化する代わりに,世代別利用率を直接最大化するHALOを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:53:36Z) - Peering Through Preferences: Unraveling Feedback Acquisition for
Aligning Large Language Models [32.843361525236965]
スパースフィードバックが大規模言語モデルのアライメントと評価に与える影響を解析する。
評価やランク付けの好みは、人間とAIのアノテータの双方で60%と大きく異なっています。
本研究は,言語モデルの現実的有用性を評価する手法において,重要なギャップを浮き彫りにした。
論文 参考訳(メタデータ) (2023-08-30T07:35:32Z) - On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-$n$ Recommendation [12.036747050794135]
計算累積ゲイン(Discounted Cumulative Gain, NDCG)は、経験的研究において広く採用されている指標の一つである。
我々は、我々の偏見のないDCGの推定値が、指標固有の仮定に違反した場合であっても、オンライン報酬と強く相関していることを示した。
論文 参考訳(メタデータ) (2023-07-27T17:57:42Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Doubly-Robust Estimation for Unbiased Learning-to-Rank from
Position-Biased Click Feedback [13.579420996461439]
IPS推定の代わりにランク毎の待遇を期待する新しいDR推定器を提案する。
我々の結果は、最適な性能で収束するためには、桁違いに少ないデータポイントを必要とすることを示唆している。
論文 参考訳(メタデータ) (2022-03-31T15:38:25Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Consistent Instance False Positive Improves Fairness in Face Recognition [46.55971583252501]
既存の手法は正確な人口統計学のアノテーションに大きく依存している。
これらの手法は典型的には特定の人口集団のために設計されており、一般には不十分である。
本稿では, 偽陽性率の一貫性を高め, 顔認識バイアスを緩和する偽陽性率ペナルティ損失を提案する。
論文 参考訳(メタデータ) (2021-06-10T06:20:37Z) - Evaluating Large-Vocabulary Object Detectors: The Devil is in the
Details [107.2722027807328]
我々は、APのデフォルト実装はカテゴリー独立ではなく、適切に校正された検出器を直接報酬するものではないことを発見した。
既定の実装ではゲーム可能なメトリックが生成され、単純で非合理的な再ランクポリシーがAPを大きなマージンで改善できることが示される。
我々は,近年の大規模語彙検出の進歩をベンチマークし,新たなクラスごとの独立性評価において,多くの報告された利益が改善に結びついていないことを発見した。
論文 参考訳(メタデータ) (2021-02-01T18:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。