論文の概要: "All that Glitters": Approaches to Evaluations with Unreliable Model and Human Annotations
- arxiv url: http://arxiv.org/abs/2411.15634v1
- Date: Sat, 23 Nov 2024 19:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:26.390903
- Title: "All that Glitters": Approaches to Evaluations with Unreliable Model and Human Annotations
- Title(参考訳): 「すべてのグリッター」:信頼できないモデルと人間のアノテーションによる評価へのアプローチ
- Authors: Michael Hardy,
- Abstract要約: 「金」と「地底真理」のラベルには誤りがある。
本研究では、専門家による極めて低い信頼性の文脈においても、そのような疑問に答える方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: "Gold" and "ground truth" human-mediated labels have error. The effects of this error can escape commonly reported metrics of label quality or obscure questions of accuracy, bias, fairness, and usefulness during model evaluation. This study demonstrates methods for answering such questions even in the context of very low reliabilities from expert humans. We analyze human labels, GPT model ratings, and transformer encoder model annotations describing the quality of classroom teaching, an important, expensive, and currently only human task. We answer the question of whether such a task can be automated using two Large Language Model (LLM) architecture families--encoders and GPT decoders, using novel approaches to evaluating label quality across six dimensions: Concordance, Confidence, Validity, Bias, Fairness, and Helpfulness. First, we demonstrate that using standard metrics in the presence of poor labels can mask both label and model quality: the encoder family of models achieve state-of-the-art, even "super-human", results across all classroom annotation tasks. But not all these positive results remain after using more rigorous evaluation measures which reveal spurious correlations and nonrandom racial biases across models and humans. This study then expands these methods to estimate how model use would change to human label quality if models were used in a human-in-the-loop context, finding that the variance captured in GPT model labels would worsen reliabilities for humans influenced by these models. We identify areas where some LLMs, within the generalizability of the current data, could improve the quality of expensive human ratings of classroom instruction.
- Abstract(参考訳): 「金」と「地底真理」のラベルには誤りがある。
このエラーの影響は、一般的に報告されているラベル品質の指標や、正確さ、偏り、公平さ、モデル評価における有用性といった不明瞭な疑問から逃れることができる。
本研究では、専門家による極めて低い信頼性の文脈においても、そのような疑問に答える方法を示す。
我々は,人間のラベル,GPTモデル評価,トランスフォーマーエンコーダモデルアノテーションを解析し,教室の授業の質,重要で高価で,現在は人間だけのタスクを記述している。
我々は,2つのLarge Language Model (LLM)アーキテクチャファミリ-エンコーダとGPTデコーダを使って,6次元のラベル品質を評価するための新しいアプローチを用いて,そのようなタスクを自動化できるか,という疑問に答える。
まず、粗悪なラベルの存在下で標準メトリクスを使用することで、ラベルとモデルの品質の両方を隠蔽することができることを実証する。
しかし、これらすべての肯定的な結果が、モデルと人間の間で急激な相関と非ランダムな人種的偏見を示す厳密な評価手段を使用した後に残っているわけではない。
この研究は、GPTモデルラベルで得られた分散が、これらのモデルに影響された人間の信頼性を悪化させることを見出した上で、モデルがループ内文脈で使用された場合、モデル使用が人間のラベル品質にどのように変化するかを推定するためにこれらの手法を拡張した。
我々は、現在のデータの一般化可能性の範囲内で、一部のLCMが、高額な人的評価の授業の質を向上させることができる領域を同定する。
関連論文リスト
- Balancing Label Quantity and Quality for Scalable Elicitation [2.2143065226946423]
本研究では,NLP分類タスクにおける量品質トレードオフのミクロ経済性について検討する。
教師付き微調整を用いた事前学習モデルから分類知識を抽出する3つの方法について検討した。
固定ラベル付予算において,教師付き微調整の精度を最大5ポイント向上できることがわかった。
論文 参考訳(メタデータ) (2024-10-17T04:39:58Z) - Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Estimating label quality and errors in semantic segmentation data via
any model [19.84626033109009]
ラベル品質を評価する手法について検討し、最も低いスコアのイメージを正しくラベル付けする可能性が低いことを示す。
これにより、高品質なトレーニング/評価データセットを保証するために、レビューするデータを優先順位付けすることが可能になる。
論文 参考訳(メタデータ) (2023-07-11T07:29:09Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Confidence-Aware Calibration and Scoring Functions for Curriculum
Learning [1.192436948211501]
モデルのキャリブレーションと一般化を向上するために,ラベル平滑化によるモデル信頼と人間信頼の概念を統合した。
より高いモデルまたは人間の信頼度スコアは、より認識可能でより簡単なサンプルを示すため、カリキュラム学習においてサンプルをランク付けするスコア関数として使用できる。
論文 参考訳(メタデータ) (2023-01-29T23:59:40Z) - SeedBERT: Recovering Annotator Rating Distributions from an Aggregated
Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。
人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文 参考訳(メタデータ) (2022-11-23T18:35:15Z) - An Empirical Investigation of Learning from Biased Toxicity Labels [15.822714574671412]
我々は,人間の注釈付きラベルの小さなデータセットと,合成されたラベルの大きいがノイズの多いデータセットを,異なるトレーニング戦略が活用できるかを検討する。
これらの手法の精度と公平性、および両者のトレードオフを評価する。
論文 参考訳(メタデータ) (2021-10-04T17:19:57Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。