論文の概要: Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2410.03775v3
- Date: Mon, 27 Jan 2025 07:02:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:50:45.789192
- Title: Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge
- Title(参考訳): 相関を超えて:人間の不確かさが自動評価とLCM-as-a-Judgeの有効性に及ぼす影響
- Authors: Aparna Elangovan, Lei Xu, Jongwoo Ko, Mahsa Elyasi, Ling Liu, Sravan Bodapati, Dan Roth,
- Abstract要約: 一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
- 参考スコア(独自算出の注目度): 51.93909886542317
- License:
- Abstract: The effectiveness of automatic evaluation of generative models is typically measured by comparing the labels generated via automation with labels by humans using correlation metrics. However, metrics like Krippendorff's $\alpha$ and Randolph's $\kappa$ were originally designed to measure the reliability of human labeling, thus make assumptions about typical human labeling behavior, and these assumptions may not be applicable to machine generated labels. In this paper, we show how *relying on a single aggregate correlation score* can obscure fundamental differences between human labels and those from automatic evaluation, including LLM-as-a-Judge. Specifically, we demonstrate that when the proportion of samples with variation or uncertainty in human assigned labels is relatively high, machine labels (generated by automatic evaluation methods) may superficially appear to have similar or better correlation with the human majority label compared to the human-to-human (HH) correlation. This can create the illusion that labels from automatic evaluation approximates the human majority label. However, as the proportion of samples with consistent human labels increases, the correlation between machine and human labels fall well below HH correlation. Based on these findings, we first propose stratifying data by human label uncertainty to provide a more robust analysis of automatic evaluation performance. Second, recognizing that uncertainty and variation are inherent in perception-based human evaluations, such as those involving attitudes or preferences, we introduce a new metric - binned Jensen-Shannon Divergence for perception for such scenarios to better measure the effectiveness of automatic evaluations. We present visualization techniques -- perception charts, to contextualize correlation measures appropriately. We have open-sourced at https://github.com/amazon-science/BeyondCorrelation.
- Abstract(参考訳): 生成モデルの自動評価の有効性は、典型的には、相関指標を用いて、自動化によって生成されたラベルと人によるラベルを比較することで測定される。
しかしながら、クリッペンドルフの$\alpha$やランドルフの$\kappa$のようなメトリクスは、もともと人間のラベル付けの信頼性を測定するために設計され、典型的な人間のラベル付けの振る舞いを仮定する。
本稿では,1つのアグリゲーション相関スコアを*参照することで,LLM-as-a-Judgeを含む自動評価による人名と人名との基本的な相違が明らかになることを示す。
具体的には,ヒトに割り当てられたラベルの変動や不確実性を示すサンプルの割合が比較的高い場合,機械ラベル(自動評価法により生成する)は,ヒトとヒトの相関と比較して,ヒトの多数派ラベルに類似あるいは良好な相関関係があることを実証する。
これにより、自動評価によるラベルが人間の多数派ラベルに近似する、という錯覚を生じさせる。
しかし、連続した人間のラベルを持つサンプルの割合が増加するにつれて、機械と人間のラベルの相関はHHの相関よりかなり低い。
これらの知見に基づいて,まず,人間のラベルの不確実性による階層化データを提案し,自動評価性能のより堅牢な解析を行う。
第2に,不確実性と変化が,態度や嗜好などの認識に基づく人的評価に固有のものであることを認識し,このようなシナリオに対する認識のための新しい指標であるジェンセン=シャノンの偏差を導入することにより,自動評価の有効性をよりよく測定する。
本稿では,相関尺度を適切にコンテキスト化するための可視化技術 -- 知覚チャート – を提案する。
https://github.com/amazon-science/BeyondCorrelation.comでオープンソース化しました。
関連論文リスト
- "All that Glitters": Approaches to Evaluations with Unreliable Model and Human Annotations [0.0]
「金」と「地底真理」のラベルには誤りがある。
本研究では、専門家による極めて低い信頼性の文脈においても、そのような疑問に答える方法を示す。
論文 参考訳(メタデータ) (2024-11-23T19:18:08Z) - Learning with Confidence: Training Better Classifiers from Soft Labels [0.0]
教師付き機械学習では、モデルは通常、ハードラベルを持つデータ、すなわちクラスメンバーシップの明確な割り当てを用いて訓練される。
クラスラベル上の離散確率分布として表されるラベルの不確実性を組み込むことで,分類モデルの予測性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-24T13:12:29Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Improving Classifier Robustness through Active Generation of Pairwise
Counterfactuals [22.916599410472102]
本稿では,カウンターファクト・ジェネレーティブ・モデルを用いて多種多様なカウンターファクト・モデルを生成する新しいフレームワークを提案する。
少量の人間注釈付き対実データ(10%)で、学習ラベルを用いた対実データ拡張データセットを生成することができることを示す。
論文 参考訳(メタデータ) (2023-05-22T23:19:01Z) - The 'Problem' of Human Label Variation: On Ground Truth in Data,
Modeling and Evaluation [21.513743126525622]
我々は、人間のラベルの変動という大きなオープンな問題が持続し、我々の分野を前進させるためには、より注意が必要であると論じている。
我々は、これまで提案された異なるラベルのバリエーションの概念を整理し、公開可能なデータセットのリポジトリを非集約ラベルで提供し、これまで提案されてきたアプローチを描写し、ギャップを識別し、今後の方向性を提案する。
論文 参考訳(メタデータ) (2022-11-04T16:38:09Z) - Multi-label Classification with High-rank and High-order Label
Correlations [62.39748565407201]
従来の手法では, ラベル行列を低ランク行列係数化した潜在ラベル空間に変換することにより, 高階ラベル相関を捕えることができた。
本稿では,高次ラベル相関を明示的に記述する簡易かつ効果的な手法を提案し,同時にラベル行列の高次値を維持する。
12個のベンチマークデータセットの比較研究により,マルチラベル分類における提案アルゴリズムの有効性が検証された。
論文 参考訳(メタデータ) (2022-07-09T05:15:31Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - An Empirical Investigation of Learning from Biased Toxicity Labels [15.822714574671412]
我々は,人間の注釈付きラベルの小さなデータセットと,合成されたラベルの大きいがノイズの多いデータセットを,異なるトレーニング戦略が活用できるかを検討する。
これらの手法の精度と公平性、および両者のトレードオフを評価する。
論文 参考訳(メタデータ) (2021-10-04T17:19:57Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。