Fugu-MT 論文翻訳(概要): Survey Equivalence: A Procedure for Measuring Classifier Accuracy Against Human Labels

論文の概要: Survey Equivalence: A Procedure for Measuring Classifier Accuracy Against Human Labels

arxiv url: http://arxiv.org/abs/2106.01254v1
Date: Wed, 2 Jun 2021 16:07:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-03 18:53:19.708201
Title: Survey Equivalence: A Procedure for Measuring Classifier Accuracy Against Human Labels
Title（参考訳）: 調査等価性:人間ラベルに対する分類器の精度測定方法
Authors: Paul Resnick, Yuqing Kong, Grant Schoenebeck, Tim Weninger
Abstract要約: 多くの分類タスクでは、根底的な真理はうるさいか主観的である。本稿では,任意の精度尺度を直観的な解釈に再スケールする手順について述べる。
参考スコア（独自算出の注目度）: 22.306556984886328
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In many classification tasks, the ground truth is either noisy or subjective. Examples include: which of two alternative paper titles is better? is this comment toxic? what is the political leaning of this news article? We refer to such tasks as survey settings because the ground truth is defined through a survey of one or more human raters. In survey settings, conventional measurements of classifier accuracy such as precision, recall, and cross-entropy confound the quality of the classifier with the level of agreement among human raters. Thus, they have no meaningful interpretation on their own. We describe a procedure that, given a dataset with predictions from a classifier and K ratings per item, rescales any accuracy measure into one that has an intuitive interpretation. The key insight is to score the classifier not against the best proxy for the ground truth, such as a majority vote of the raters, but against a single human rater at a time. That score can be compared to other predictors' scores, in particular predictors created by combining labels from several other human raters. The survey equivalence of any classifier is the minimum number of raters needed to produce the same expected score as that found for the classifier.
Abstract（参考訳）: 多くの分類タスクでは、根底的な真理はうるさいか主観的である。 2つの代替紙タイトルのうちどちらが優れているか? このコメントは有毒ですか? このニュース記事の政治的傾向は何か。我々は,1人以上のレイパーを対象にした調査によって,基礎的真理が定義されているため,調査設定などのタスクを参照する。調査設定では, 精度, リコール, クロスエントロピーといった従来の分類器の精度測定では, 評価器の質と, 人間のレーダ間の一致度が一致している。したがって、彼ら自身に意味のある解釈はない。分類器から予測されたデータセットと項目毎のKレーティングが与えられた場合、任意の精度測定を直観的な解釈に再スケールする手順を述べる。重要な洞察は、パーサーの過半数の投票など、基礎的真理の最良の代理者ではなく、一度に1人の人間格付け者に対して分類器を得点させることである。このスコアは、他の予測者のスコア、特に他の複数の人格のラベルを組み合わせた予測値と比較することができる。任意の分類器の調査等価性は、分類器で見られるものと同じ期待スコアを生成するのに必要な最小限のラッカー数である。

関連論文リスト

The Tile: A 2D Map of Ranking Scores for Two-Class Classification [10.89980029564174]
2クラス分類器のための1つの2次元マップにおいて、ランキングスコアの無限度を整理する新しい多目的ツールTileを提案する。本研究では,前者の影響やROC空間との対応など,基礎となるランキングスコアの特性について検討する。
論文参考訳（メタデータ） (2024-12-05T16:27:59Z)
Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文参考訳（メタデータ） (2024-10-03T03:08:29Z)
Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文参考訳（メタデータ） (2023-11-16T10:18:32Z)
Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文参考訳（メタデータ） (2023-05-24T06:19:14Z)
SeedBERT: Recovering Annotator Rating Distributions from an Aggregated Label [43.23903984174963]
単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。
論文参考訳（メタデータ） (2022-11-23T18:35:15Z)
Language Model Classifier Aligns Better with Physician Word Sensitivity than XGBoost on Readmission Prediction [86.15787587540132]
語彙レベルでモデルの振る舞いを精査する尺度である感度スコアを導入する。本実験は,感度スコアのランク相関に基づいて,臨床医と分類医の意思決定論理を比較した。
論文参考訳（メタデータ） (2022-11-13T23:59:11Z)
Enabling Classifiers to Make Judgements Explicitly Aligned with Human Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-14T09:10:49Z)
Estimating Confidence of Predictions of Individual Classifiers and Their Ensembles for the Genre Classification Task [0.0]
Genre IDは、非トピックテキスト分類のサブクラスである。 BERTやXLM-RoBERTaのような事前訓練されたトランスフォーマーに基づく神経モデルは、多くのNLPタスクにおいてSOTA結果を示す。
論文参考訳（メタデータ） (2022-06-15T09:59:05Z)
Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文参考訳（メタデータ） (2022-03-16T15:00:33Z)
SEPP: Similarity Estimation of Predicted Probabilities for Defending and Detecting Adversarial Text [0.0]
本研究では,予測確率(SEPP)の類似度推定に基づくアンサンブルモデルを提案する。各種の被害者分類器による敵対的テキストの保護と検出におけるSEPPのレジリエンスを実証する。
論文参考訳（メタデータ） (2021-10-12T05:36:54Z)
Specialists Outperform Generalists in Ensemble Classification [15.315432841707736]
本稿では,アンサンブルの精度を判定できるかどうかという問題に対処する。我々は、上と下の境界に達する個別の分類器を明示的に構築する:専門家と一般主義者。
論文参考訳（メタデータ） (2021-07-09T12:16:10Z)
Tweet Sentiment Quantification: An Experimental Re-Evaluation [88.60021378715636]
センチメント定量化(Sentiment Quantification)は、教師付き学習によって、感情関連クラスの相対周波数(prevalence')を推定するタスクである。統合され、より堅牢な実験プロトコルに従って、これらの定量化手法を再評価する。結果はガオ・ガオ・セバスティアーニ(Gao Gao Sebastiani)によって得られたものとは大きく異なり、異なる感情量化法の相対的な強さと弱さについて、よりしっかりとした理解を提供する。
論文参考訳（メタデータ） (2020-11-04T21:41:34Z)
Constructing interval variables via faceted Rasch measurement and multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文参考訳（メタデータ） (2020-09-22T02:15:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。