Fugu-MT 論文翻訳(概要): Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge

論文の概要: Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge

arxiv url: http://arxiv.org/abs/2410.03775v2
Date: Sat, 23 Nov 2024 00:30:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.214125
Title: Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge
Title（参考訳）: 相関を超えて:人間の不確実性が自動評価とLCM-as-a-judgeの有効性に及ぼす影響
Authors: Aparna Elangovan, Jongwoo Ko, Lei Xu, Mahsa Elyasi, Ling Liu, Sravan Bodapati, Dan Roth,
Abstract要約: 本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
参考スコア（独自算出の注目度）: 51.93909886542317
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The effectiveness of automatic evaluation of generative models is typically measured by comparing it to human evaluation using correlation metrics. However, metrics like Krippendorff's $\alpha$ and Randolph's $\kappa$, originally designed to measure the reliability of human labeling, make assumptions about human behavior and the labeling process. In this paper, we show how *relying on a single aggregate correlation score* can obscure fundamental differences between human behavior and automatic evaluation methods, including LLM-as-a-Judge. Specifically, we demonstrate that when the proportion of samples with variation or uncertainty in human labels (gathered during human evaluation) is relatively high, machine labels (generated by automatic evaluation methods) may superficially appear to have similar or better correlation with the human majority label compared to human-to-human (HH) correlation. This can create the illusion that automatic evaluation approximates the human majority label. However, as the proportion of samples with consistent human labels increases, the correlation between machine and human labels fall well below HH correlation. Based on these findings, we first propose stratifying results by human label uncertainty to provide a more robust analysis of automatic evaluation performance. Second, recognizing that uncertainty and variation are inherent in perception-based human evaluations, such as those involving attitudes or preferences, we introduce a new metric - *binned Jensen-Shannon Divergence for perception* for such scenarios to better measure the effectiveness of automatic evaluations. Third, we present visualization techniques -- *perception charts*, to compare the strengths and limitations of automatic evaluation and to contextualize correlation measures appropriately
Abstract（参考訳）: 生成モデルの自動評価の有効性は、典型的には相関指標を用いて人体評価と比較することによって測定される。しかしながら、クリッペンドルフの$\alpha$やランドルフの$\kappa$のようなメトリクスは、もともと人間のラベル付けの信頼性を測定し、人間の振る舞いとラベル付けプロセスについて仮定するように設計されていた。本稿では,1つの集合相関スコアを*参照することで,人間の行動とLLM-as-a-Judgeを含む自動評価方法の根本的な違いが明確になることを示す。具体的には,ヒトのラベルに変化や不確実性を有するサンプルの割合が比較的高い場合,機械ラベル(自動評価法により生成する)は,ヒトとヒトの相関と比較して,ヒトの過半数ラベルと表面的あるいは良好な相関関係を持つことを示した。これにより、自動評価が人間の多数派ラベルに近似する、という幻想が生まれる。しかし、連続した人間のラベルを持つサンプルの割合が増加するにつれて、機械と人間のラベルの相関はHHの相関よりかなり低い。これらの結果に基づいて,まず,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。第2に, 態度や嗜好など, 認識に基づく人間評価に不確実性や変動が関係していることを認識し, 自動評価の有効性をよりよく評価するために, 知覚のための *binned Jensen-Shannon Divergence を新たに導入する。第3に、自動評価の強みと限界を比較し、適切な相関測定を適切に行うための可視化技術 -- *知覚チャート*を提案する。

関連論文リスト

"All that Glitters": Approaches to Evaluations with Unreliable Model and Human Annotations [0.0]
「金」と「地底真理」のラベルには誤りがある。本研究では、専門家による極めて低い信頼性の文脈においても、そのような疑問に答える方法を示す。
論文参考訳（メタデータ） (2024-11-23T19:18:08Z)
Learning with Confidence: Training Better Classifiers from Soft Labels [0.0]
教師付き機械学習では、モデルは通常、ハードラベルを持つデータ、すなわちクラスメンバーシップの明確な割り当てを用いて訓練される。クラスラベル上の離散確率分布として表されるラベルの不確実性を組み込むことで,分類モデルの予測性能が向上するかどうかを検討する。
論文参考訳（メタデータ） (2024-09-24T13:12:29Z)
Aligning Model Evaluations with Human Preferences: Mitigating Token Count Bias in Language Model Assessments [2.1370543868467275]
本稿では,大規模言語モデルと人的評価を協調させる手法について検討する。我々はこのバイアスを定量化するためにベイズ統計とt検定を用い、GPTScorerを調整するための再校正手順を開発した。以上の結果から,再校正したLCM評価器と,複数のユースケースにおけるヒト評価との整合性は有意に改善した。
論文参考訳（メタデータ） (2024-07-05T09:26:40Z)
It HAS to be Subjective: Human Annotator Simulation via Zero-shot Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-30T20:54:59Z)
What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文参考訳（メタデータ） (2023-09-19T01:59:54Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文参考訳（メタデータ） (2023-05-24T04:27:40Z)
Improving Classifier Robustness through Active Generation of Pairwise Counterfactuals [22.916599410472102]
本稿では,カウンターファクト・ジェネレーティブ・モデルを用いて多種多様なカウンターファクト・モデルを生成する新しいフレームワークを提案する。少量の人間注釈付き対実データ(10%)で、学習ラベルを用いた対実データ拡張データセットを生成することができることを示す。
論文参考訳（メタデータ） (2023-05-22T23:19:01Z)
The 'Problem' of Human Label Variation: On Ground Truth in Data, Modeling and Evaluation [21.513743126525622]
我々は、人間のラベルの変動という大きなオープンな問題が持続し、我々の分野を前進させるためには、より注意が必要であると論じている。我々は、これまで提案された異なるラベルのバリエーションの概念を整理し、公開可能なデータセットのリポジトリを非集約ラベルで提供し、これまで提案されてきたアプローチを描写し、ギャップを識別し、今後の方向性を提案する。
論文参考訳（メタデータ） (2022-11-04T16:38:09Z)
Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文参考訳（メタデータ） (2022-10-17T08:55:26Z)
Multi-label Classification with High-rank and High-order Label Correlations [62.39748565407201]
従来の手法では, ラベル行列を低ランク行列係数化した潜在ラベル空間に変換することにより, 高階ラベル相関を捕えることができた。本稿では,高次ラベル相関を明示的に記述する簡易かつ効果的な手法を提案し,同時にラベル行列の高次値を維持する。 12個のベンチマークデータセットの比較研究により,マルチラベル分類における提案アルゴリズムの有効性が検証された。
論文参考訳（メタデータ） (2022-07-09T05:15:31Z)
Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文参考訳（メタデータ） (2022-04-21T15:52:14Z)
Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-15T11:32:13Z)
An Empirical Investigation of Learning from Biased Toxicity Labels [15.822714574671412]
我々は,人間の注釈付きラベルの小さなデータセットと,合成されたラベルの大きいがノイズの多いデータセットを,異なるトレーニング戦略が活用できるかを検討する。これらの手法の精度と公平性、および両者のトレードオフを評価する。
論文参考訳（メタデータ） (2021-10-04T17:19:57Z)
A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文参考訳（メタデータ） (2021-03-31T18:28:14Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)
Exploiting Sample Uncertainty for Domain Adaptive Person Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文参考訳（メタデータ） (2020-12-16T04:09:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。