論文の概要: Crowdsourcing with Difficulty: A Bayesian Rating Model for Heterogeneous Items
- arxiv url: http://arxiv.org/abs/2405.19521v2
- Date: Mon, 21 Oct 2024 18:43:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:26:18.212764
- Title: Crowdsourcing with Difficulty: A Bayesian Rating Model for Heterogeneous Items
- Title(参考訳): 困難を伴うクラウドソーシング:不均一項目に対するベイズ評価モデル
- Authors: Seong Woo Han, Ozan Adıgüzel, Bob Carpenter,
- Abstract要約: 応用統計学と機械学習では、訓練に使用される「金の標準」はしばしば偏りがあり、ほとんど常にうるさい。
DawidとSkeneの人気の高いクラウドソーシングモデルは、レーダ(コーダ、アノテータ)の感度と特異性を調整するが、トレーニングのために収集されたレーティングデータの分布特性を捉えない。
本稿では,難易度,差別性,推測可能性に項目レベルの効果を加えることで,コンセンサスカテゴリを推測できる汎用計測エラーモデルを提案する。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License:
- Abstract: In applied statistics and machine learning, the "gold standards" used for training are often biased and almost always noisy. Dawid and Skene's justifiably popular crowdsourcing model adjusts for rater (coder, annotator) sensitivity and specificity, but fails to capture distributional properties of rating data gathered for training, which in turn biases training. In this study, we introduce a general purpose measurement-error model with which we can infer consensus categories by adding item-level effects for difficulty, discriminativeness, and guessability. We further show how to constrain the bimodal posterior of these models to avoid (or if necessary, allow) adversarial raters. We validate our model's goodness of fit with posterior predictive checks, the Bayesian analogue of $\chi^2$ tests. Dawid and Skene's model is rejected by goodness of fit tests, whereas our new model, which adjusts for item heterogeneity, is not rejected. We illustrate our new model with two well-studied data sets, binary rating data for caries in dental X-rays and implication in natural language.
- Abstract(参考訳): 応用統計学と機械学習では、訓練に使用される「金の標準」はしばしば偏りがあり、ほとんど常にうるさい。
DawidとSkeneの人気の高いクラウドソーシングモデルは、レーダ(コーダ、アノテータ)の感度と特異性を調整するが、トレーニングのために収集されたレーティングデータの分布特性を捉えることができず、それがトレーニングのバイアスとなる。
本研究では,難易度,識別性,推測可能性に項目レベルの影響を加えることで,コンセンサスカテゴリを推測できる汎用的な測定エラーモデルを提案する。
さらに、これらのモデルのバイモーダル後部を制限し、(必要であれば許容)敵のレーダを避ける方法を示す。
このモデルが後方予測チェックに適合するかどうかを検証し, ベイジアンによる$\chi^2$検定の類似性を検証した。
Dawid と Skene のモデルは適合試験の良さによって無視されるが、アイテムの不均一性を調整する新しいモデルは拒否されない。
我々は,2つのよく研究されたデータセット,歯科用X線撮影におけるケーリーのバイナリ・レーティング・データ,および自然言語による含意について述べる。
関連論文リスト
- Universality in Transfer Learning for Linear Models [18.427215139020625]
回帰モデルと二分分類モデルの両方を対象とした線形モデルにおける伝達学習の問題点について検討する。
我々は、厳密かつ厳密な分析を行い、事前訓練されたモデルと微調整されたモデルに対する一般化誤差(回帰)と分類誤差(二分分類)を関連付ける。
論文 参考訳(メタデータ) (2024-10-03T03:09:09Z) - Improving Heterogeneous Model Reuse by Density Estimation [105.97036205113258]
本稿では,異なる参加者の個人データを用いてモデルを学習することを目的とした多人数学習について検討する。
モデルの再利用は、各パーティーのためにローカルモデルがトレーニングされていると仮定して、マルチパーティの学習にとって有望なソリューションである。
論文 参考訳(メタデータ) (2023-05-23T09:46:54Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Right for the Right Latent Factors: Debiasing Generative Models via
Disentanglement [20.41752850243945]
統計機械学習手法の主要な前提は、テスト時に遭遇したデータの分布から独立したサンプルにアクセスすることである。
特に、機械学習モデルは、Clever-Hansのような振る舞いを示すことが示されている。
本稿では,人的フィードバックによって達成される内部表現を解消し,生成モデルをデバイアス化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-01T13:16:18Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Adversarial robustness for latent models: Revisiting the robust-standard
accuracies tradeoff [12.386462516398472]
標準的なテストの精度を落とすために、しばしば逆行訓練が観察される。
本稿では、このトレードオフは、データが低次元構造を楽しむ場合に緩和されると論じる。
周囲次元に対する多様体次元が減少するにつれて、標準精度とロバスト精度の両方に関してほぼ最適に近いモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-10-22T17:58:27Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。