論文の概要: Rater Equivalence: Evaluating Classifiers in Human Judgment Settings
- arxiv url: http://arxiv.org/abs/2106.01254v2
- Date: Thu, 06 Nov 2025 16:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 22:27:39.515996
- Title: Rater Equivalence: Evaluating Classifiers in Human Judgment Settings
- Title(参考訳): レータ等価性:人間の判断設定における分類器の評価
- Authors: Paul Resnick, Yuqing Kong, Grant Schoenebeck, Tim Weninger,
- Abstract要約: 本稿では,人的判断のみに基づく自動分類器の評価フレームワークを提案する。
本フレームワークは,ベンチマークパネルの構築と性能評価に人為的なラベルを使用する。
ケーススタディと形式解析を用いて、このフレームワークがAIシステムの評価と展開にどのように役立つかを実証する。
- 参考スコア(独自算出の注目度): 11.529701822081394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many decision settings, the definitive ground truth is either non-existent or inaccessible. We introduce a framework for evaluating classifiers based solely on human judgments. In such cases, it is helpful to compare automated classifiers to human judgment. We quantify a classifier's performance by its rater equivalence: the smallest number of human raters whose combined judgment matches the classifier's performance. Our framework uses human-generated labels both to construct benchmark panels and to evaluate performance. We distinguish between two models of utility: one based on agreement with the assumed but inaccessible ground truth, and one based on matching individual human judgments. Using case studies and formal analysis, we demonstrate how this framework can inform the evaluation and deployment of AI systems in practice.
- Abstract(参考訳): 多くの決定設定では、決定的な基礎的真理は存在しないか、アクセスできないかのいずれかである。
人間の判断のみに基づく分類器評価のための枠組みを提案する。
このような場合、自動分類器と人間の判断を比較することは有用である。
分類器の性能をレーダ同値で定量化する: 組み合わせた判定が分類器の性能と一致する最小数の人間のレーダである。
本フレームワークは,ベンチマークパネルの構築と性能評価に人為的なラベルを使用する。
我々は2つのユーティリティーモデルを区別する。1つは仮定されるが到達不可能な基底真理との一致に基づくものであり、もう1つは一致した人間の判断に基づくものである。
ケーススタディとフォーマルな分析を用いて、このフレームワークが実際にAIシステムの評価と展開にどのように役立つかを実証する。
関連論文リスト
- The Tile: A 2D Map of Ranking Scores for Two-Class Classification [10.89980029564174]
2クラス分類器のための1つの2次元マップにおいて、ランキングスコアの無限度を整理する新しい多目的ツールTileを提案する。
本研究では,前者の影響やROC空間との対応など,基礎となるランキングスコアの特性について検討する。
論文 参考訳(メタデータ) (2024-12-05T16:27:59Z) - Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - SeedBERT: Recovering Annotator Rating Distributions from an Aggregated
Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。
人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文 参考訳(メタデータ) (2022-11-23T18:35:15Z) - Language Model Classifier Aligns Better with Physician Word Sensitivity
than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。
本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文 参考訳(メタデータ) (2022-11-13T23:59:11Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Estimating Confidence of Predictions of Individual Classifiers and Their
Ensembles for the Genre Classification Task [0.0]
Genre IDは、非トピックテキスト分類のサブクラスである。
BERTやXLM-RoBERTaのような事前訓練されたトランスフォーマーに基づく神経モデルは、多くのNLPタスクにおいてSOTA結果を示す。
論文 参考訳(メタデータ) (2022-06-15T09:59:05Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - SEPP: Similarity Estimation of Predicted Probabilities for Defending and
Detecting Adversarial Text [0.0]
本研究では,予測確率(SEPP)の類似度推定に基づくアンサンブルモデルを提案する。
各種の被害者分類器による敵対的テキストの保護と検出におけるSEPPのレジリエンスを実証する。
論文 参考訳(メタデータ) (2021-10-12T05:36:54Z) - Specialists Outperform Generalists in Ensemble Classification [15.315432841707736]
本稿では,アンサンブルの精度を判定できるかどうかという問題に対処する。
我々は、上と下の境界に達する個別の分類器を明示的に構築する:専門家と一般主義者。
論文 参考訳(メタデータ) (2021-07-09T12:16:10Z) - Tweet Sentiment Quantification: An Experimental Re-Evaluation [88.60021378715636]
センチメント定量化(Sentiment Quantification)は、教師付き学習によって、感情関連クラスの相対周波数(prevalence')を推定するタスクである。
統合され、より堅牢な実験プロトコルに従って、これらの定量化手法を再評価する。
結果はガオ・ガオ・セバスティアーニ(Gao Gao Sebastiani)によって得られたものとは大きく異なり、異なる感情量化法の相対的な強さと弱さについて、よりしっかりとした理解を提供する。
論文 参考訳(メタデータ) (2020-11-04T21:41:34Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。