論文の概要: Mitigating Observation Biases in Crowdsourced Label Aggregation
- arxiv url: http://arxiv.org/abs/2302.13100v1
- Date: Sat, 25 Feb 2023 15:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 18:59:33.798076
- Title: Mitigating Observation Biases in Crowdsourced Label Aggregation
- Title(参考訳): クラウドソーシングラベルアグリゲーションにおける観測バイアスの緩和
- Authors: Ryosuke Ueda, Koh Takeuchi, Hisashi Kashima
- Abstract要約: クラウドソーシングから高品質な結果を得るための技術的課題の1つは、それが人間であるという事実によって引き起こされる変動性とバイアスを扱うことである。
本研究では,クラウドソーシングにおける観察バイアスに着目した。
作業者のレスポンスの頻度とタスクの複雑さの変化は、集約結果に影響を与える可能性がある。
- 参考スコア(独自算出の注目度): 19.460509608096217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowdsourcing has been widely used to efficiently obtain labeled datasets for
supervised learning from large numbers of human resources at low cost. However,
one of the technical challenges in obtaining high-quality results from
crowdsourcing is dealing with the variability and bias caused by the fact that
it is humans execute the work, and various studies have addressed this issue to
improve the quality by integrating redundantly collected responses. In this
study, we focus on the observation bias in crowdsourcing. Variations in the
frequency of worker responses and the complexity of tasks occur, which may
affect the aggregation results when they are correlated with the quality of the
responses. We also propose statistical aggregation methods for crowdsourcing
responses that are combined with an observational data bias removal method used
in causal inference. Through experiments using both synthetic and real datasets
with/without artificially injected spam and colluding workers, we verify that
the proposed method improves the aggregation accuracy in the presence of strong
observation biases and robustness to both spam and colluding workers.
- Abstract(参考訳): クラウドソーシングは、大量の人的資源から低コストで教師付き学習のためのラベル付きデータセットを効率的に取得するために広く利用されている。
しかし,クラウドソーシングから高品質な結果を得る上での技術的課題の1つは,人間が作業を行うという事実による変動性とバイアスに対処することであり,冗長に収集された応答を統合することで品質を改善するために様々な研究がなされている。
本研究では,クラウドソーシングにおける観察バイアスに着目した。
作業者の反応の頻度とタスクの複雑さの変化は、それらが応答の質と相関している場合、集約結果に影響を与える可能性がある。
また,因果推論に用いられる観測データバイアス除去法と組み合わせたクラウドソーシング応答の統計的集計手法を提案する。
人工的に注入されたスパムと凝固作業員を併用し, 実データと実データの両方を用いて実験を行った結果, 強い観察バイアスが存在する場合の凝集精度が向上し, スパムと凝固作業者の堅牢性が向上することが確認できた。
関連論文リスト
- Multi-Source Conformal Inference Under Distribution Shift [41.701790856201036]
複数のバイアスのあるデータソースを活用することにより,対象個体数の分布自由な予測区間を得るという課題を考察する。
対象集団および源集団における未観測結果の定量値に対する効率的な影響関数を導出する。
本稿では、効率向上のための重み付き情報ソースとバイアス低減のための重み付き非情報ソースに対するデータ適応戦略を提案する。
論文 参考訳(メタデータ) (2024-05-15T13:33:09Z) - Data Quality in Crowdsourcing and Spamming Behavior Detection [2.6481162211614118]
本稿では,データ品質を評価し,分散分解によるスパムの脅威を検出するための体系的手法を提案する。
データ一貫性を評価するためにスパマーインデックスが提案され、群衆労働者の信頼性を測定するために2つの指標が開発された。
論文 参考訳(メタデータ) (2024-04-04T02:21:38Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Fairness Improves Learning from Noisily Labeled Long-Tailed Data [119.0612617460727]
長い尾とノイズの多いラベル付きデータは、現実世界のアプリケーションに頻繁に現れ、学習に重大な課題を課す。
2つのサブポピュレーション間のパフォーマンスギャップを正規化することから着想を得たFairness Regularizer(FR)を導入する。
導入したフェアネス正則化器は,尾部のサブポピュレーションと全体的な学習性能を向上することを示す。
論文 参考訳(メタデータ) (2023-03-22T03:46:51Z) - FedRN: Exploiting k-Reliable Neighbors Towards Robust Federated Learning [15.101940747707701]
FedRNは、データの専門性や類似性が高いk信頼性の高い隣人を悪用している。
既存の頑健なトレーニング手法と比較して,FedRNはノイズラベルの存在下でテスト精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-05-03T05:09:08Z) - Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。
この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文 参考訳(メタデータ) (2020-12-20T23:18:51Z) - Optimal Importance Sampling for Federated Learning [57.14673504239551]
フェデレートラーニングには、集中型と分散化された処理タスクが混在する。
エージェントとデータのサンプリングは概して一様であるが、本研究では一様でないサンプリングについて考察する。
エージェント選択とデータ選択の両方に最適な重要サンプリング戦略を導出し、置換のない一様サンプリングが元のFedAvgアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:15:33Z) - Relabel the Noise: Joint Extraction of Entities and Relations via
Cooperative Multiagents [52.55119217982361]
協調型マルチエージェント群を用いて,雑音の多いインスタンスを処理するための共同抽出手法を提案する。
ノイズの多いインスタンスをきめ細かな方法で処理するために、協調グループの各エージェントは、自身の視点で連続的な信頼スコアを算出してインスタンスを評価する。
信頼度コンセンサスモジュールは、すべてのエージェントの知恵を収集し、信頼度ラベル付きラベルでノイズの多いトレーニングセットを再分割するように設計されている。
論文 参考訳(メタデータ) (2020-04-21T12:03:04Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。