論文の概要: Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge
- arxiv url: http://arxiv.org/abs/2410.03775v1
- Date: Thu, 3 Oct 2024 03:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 16:30:33.258574
- Title: Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge
- Title(参考訳): 相関を超えて:人間の不確実性が自動評価とLCM-as-a-judgeの有効性に及ぼす影響
- Authors: Aparna Elangovan, Jongwoo Ko, Lei Xu, Mahsa Elyasi, Ling Liu, Sravan Bodapati, Dan Roth,
- Abstract要約: 一つの集合相関スコアを*参照すると、人間の行動と自動評価方法の根本的な違いがあいまいになることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
- 参考スコア(独自算出の注目度): 51.93909886542317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of automatic evaluation of generative models is typically measured by comparing it to human evaluation using correlation metrics. However, metrics like Krippendorff's $\alpha$ and Randolph's $\kappa$, originally designed to measure the reliability of human labeling, make assumptions about human behavior and the labeling process. In this paper, we show how *relying on a single aggregate correlation score* can obscure fundamental differences between human behavior and automatic evaluation methods, including LLM-as-a-Judge. Specifically, we demonstrate that when the proportion of samples with variation or uncertainty in human labels (gathered during human evaluation) is relatively high, machine labels (generated by automatic evaluation methods) may superficially appear to have similar or better correlation with the human majority label compared to human-to-human (HH) correlation. This can create the misleading impression that automatic evaluation is accurate enough to approximate the human majority label. However, as the proportion of samples with consistent human labels increases, the correlation between machine labels and human majority labels declines, falling below HH correlation. Based on these findings, we first propose stratifying results by human label uncertainty to provide a more robust analysis of automatic evaluation performance. Second, recognizing that uncertainty and variation are inherent in perception-based human evaluations, such as those involving attitudes or preferences, we introduce a new metric - *binned Jensen-Shannon Divergence for perception* for such scenarios to better measure the effectiveness of automatic evaluations. Third, we present visualization techniques -- *perception charts*, to compare the strengths and limitations of automatic evaluation and to contextualize correlation measures appropriately
- Abstract(参考訳): 生成モデルの自動評価の有効性は、典型的には相関指標を用いて人体評価と比較することによって測定される。
しかしながら、クリッペンドルフの$\alpha$やランドルフの$\kappa$のようなメトリクスは、もともと人間のラベル付けの信頼性を測定し、人間の振る舞いとラベル付けプロセスについて仮定するように設計されていた。
本稿では,1つの集合相関スコアを*参照することで,人間の行動とLLM-as-a-Judgeを含む自動評価方法の根本的な違いが明確になることを示す。
具体的には,ヒトのラベルに変化や不確実性を有するサンプルの割合が比較的高い場合,機械ラベル(自動評価法により生成する)は,ヒトとヒトの相関と比較して,ヒトの過半数ラベルと表面的あるいは良好な相関関係を持つことを示した。
これにより、自動評価が人間の多数派ラベルを近似するのに十分正確であるという誤解を招く印象を与えることができる。
しかし, 連続したラベルを持つサンプルの割合が増加するにつれて, 機械ラベルとヒトの過半数ラベルの相関は減少し, HH相関を下回る。
これらの結果に基づいて,まず,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
第2に, 態度や嗜好など, 認識に基づく人間評価に不確実性や変動が関係していることを認識し, 自動評価の有効性をよりよく評価するために, 知覚のための *binned Jensen-Shannon Divergence を新たに導入する。
第3に、自動評価の強みと限界を比較し、適切な相関測定を適切に行うための可視化技術 -- *知覚チャート*を提案する。
関連論文リスト
- "All that Glitters": Approaches to Evaluations with Unreliable Model and Human Annotations [0.0]
「金」と「地底真理」のラベルには誤りがある。
本研究では、専門家による極めて低い信頼性の文脈においても、そのような疑問に答える方法を示す。
論文 参考訳(メタデータ) (2024-11-23T19:18:08Z) - Learning with Confidence: Training Better Classifiers from Soft Labels [0.0]
教師付き機械学習では、モデルは通常、ハードラベルを持つデータ、すなわちクラスメンバーシップの明確な割り当てを用いて訓練される。
クラスラベル上の離散確率分布として表されるラベルの不確実性を組み込むことで,分類モデルの予測性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2024-09-24T13:12:29Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Improving Classifier Robustness through Active Generation of Pairwise
Counterfactuals [22.916599410472102]
本稿では,カウンターファクト・ジェネレーティブ・モデルを用いて多種多様なカウンターファクト・モデルを生成する新しいフレームワークを提案する。
少量の人間注釈付き対実データ(10%)で、学習ラベルを用いた対実データ拡張データセットを生成することができることを示す。
論文 参考訳(メタデータ) (2023-05-22T23:19:01Z) - The 'Problem' of Human Label Variation: On Ground Truth in Data,
Modeling and Evaluation [21.513743126525622]
我々は、人間のラベルの変動という大きなオープンな問題が持続し、我々の分野を前進させるためには、より注意が必要であると論じている。
我々は、これまで提案された異なるラベルのバリエーションの概念を整理し、公開可能なデータセットのリポジトリを非集約ラベルで提供し、これまで提案されてきたアプローチを描写し、ギャップを識別し、今後の方向性を提案する。
論文 参考訳(メタデータ) (2022-11-04T16:38:09Z) - Multi-label Classification with High-rank and High-order Label
Correlations [62.39748565407201]
従来の手法では, ラベル行列を低ランク行列係数化した潜在ラベル空間に変換することにより, 高階ラベル相関を捕えることができた。
本稿では,高次ラベル相関を明示的に記述する簡易かつ効果的な手法を提案し,同時にラベル行列の高次値を維持する。
12個のベンチマークデータセットの比較研究により,マルチラベル分類における提案アルゴリズムの有効性が検証された。
論文 参考訳(メタデータ) (2022-07-09T05:15:31Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - An Empirical Investigation of Learning from Biased Toxicity Labels [15.822714574671412]
我々は,人間の注釈付きラベルの小さなデータセットと,合成されたラベルの大きいがノイズの多いデータセットを,異なるトレーニング戦略が活用できるかを検討する。
これらの手法の精度と公平性、および両者のトレードオフを評価する。
論文 参考訳(メタデータ) (2021-10-04T17:19:57Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。