論文の概要: Data Quality in Crowdsourcing and Spamming Behavior Detection
- arxiv url: http://arxiv.org/abs/2404.17582v1
- Date: Thu, 4 Apr 2024 02:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 18:04:17.070799
- Title: Data Quality in Crowdsourcing and Spamming Behavior Detection
- Title(参考訳): クラウドソーシングとスパミング行動検出におけるデータ品質
- Authors: Yang Ba, Michelle V. Mancenido, Erin K. Chiou, Rong Pan,
- Abstract要約: 本稿では,データ品質を評価し,分散分解によるスパムの脅威を検出するための体系的手法を提案する。
データ一貫性を評価するためにスパマーインデックスが提案され、群衆労働者の信頼性を測定するために2つの指標が開発された。
- 参考スコア(独自算出の注目度): 2.6481162211614118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As crowdsourcing emerges as an efficient and cost-effective method for obtaining labels for machine learning datasets, it is important to assess the quality of crowd-provided data, so as to improve analysis performance and reduce biases in subsequent machine learning tasks. Given the lack of ground truth in most cases of crowdsourcing, we refer to data quality as annotators' consistency and credibility. Unlike the simple scenarios where Kappa coefficient and intraclass correlation coefficient usually can apply, online crowdsourcing requires dealing with more complex situations. We introduce a systematic method for evaluating data quality and detecting spamming threats via variance decomposition, and we classify spammers into three categories based on their different behavioral patterns. A spammer index is proposed to assess entire data consistency and two metrics are developed to measure crowd worker's credibility by utilizing the Markov chain and generalized random effects models. Furthermore, we showcase the practicality of our techniques and their advantages by applying them on a face verification task with both simulation and real-world data collected from two crowdsourcing platforms.
- Abstract(参考訳): クラウドソーシングは、機械学習データセットのラベルを取得するための効率的で費用効率のよい方法として登場し、クラウドソーシングされたデータの質を評価し、分析性能を改善し、その後の機械学習タスクにおけるバイアスを低減することが重要である。
クラウドソーシングのほとんどの場合において基礎的な真実が欠如していることを考えると、データ品質はアノテータの一貫性と信頼性である。
カッパ係数とクラス内相関係数が通常適用できる単純なシナリオとは異なり、オンラインのクラウドソーシングはより複雑な状況を扱う必要がある。
本研究では,分散分解によるデータ品質評価とスパムの脅威検出の体系的手法を導入し,異なる行動パターンに基づいてスパムを3つのカテゴリに分類する。
データ整合性を評価するためにスパマー指数を提案し、マルコフ連鎖と一般化ランダム効果モデルを用いて、群衆労働者の信頼度を測定するために2つの指標を開発した。
さらに,2つのクラウドソーシングプラットフォームから収集したシミュレーションデータと実世界データの両方を用いて,顔認証タスクに適用することで,本手法の実用性とその利点を示す。
関連論文リスト
- Towards Explainable Automated Data Quality Enhancement without Domain Knowledge [0.0]
我々は,任意のデータセットにおけるデータ品質問題を自動的に評価し,修正するための包括的フレームワークを提案する。
私たちの主な目的は、欠如、冗長性、不整合という3つの基本的な欠陥に対処することです。
統計的手法と機械学習アルゴリズムを統合するハイブリッドアプローチを採用する。
論文 参考訳(メタデータ) (2024-09-16T10:08:05Z) - Crowd-Certain: Label Aggregation in Crowdsourced and Ensemble Learning
Classification [0.0]
クラウドソースおよびアンサンブル学習分類タスクにおけるラベルアグリゲーションのための新しいアプローチであるCrowd-Certainを紹介する。
提案手法は,アノテータと訓練された分類器の整合性を利用して,各アノテータの信頼性スコアを決定する。
我々は10の異なるデータセットにまたがる10の既存手法に対するアプローチを広範囲に評価し、それぞれに異なる数のアノテータをラベル付けした。
論文 参考訳(メタデータ) (2023-10-25T01:58:37Z) - Collect, Measure, Repeat: Reliability Factors for Responsible AI Data
Collection [8.12993269922936]
AIのデータ収集は責任ある方法で行うべきだと我々は主張する。
本稿では,データ収集をメトリクスの集合でガイドするResponsible AI(RAI)手法を提案する。
論文 参考訳(メタデータ) (2023-08-22T18:01:27Z) - Mitigating Observation Biases in Crowdsourced Label Aggregation [19.460509608096217]
クラウドソーシングから高品質な結果を得るための技術的課題の1つは、それが人間であるという事実によって引き起こされる変動性とバイアスを扱うことである。
本研究では,クラウドソーシングにおける観察バイアスに着目した。
作業者のレスポンスの頻度とタスクの複雑さの変化は、集約結果に影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-02-25T15:19:13Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Auto-weighted Robust Federated Learning with Corrupted Data Sources [7.475348174281237]
フェデレーション学習はコミュニケーション効率とプライバシ保護のトレーニングプロセスを提供する。
平均損失関数をナイーブに最小化する標準的なフェデレーション学習技術は、データの破損に弱い。
破損したデータソースに対して堅牢性を提供するために、自動重み付けロバストフェデレーテッドラーニング(arfl)を提案します。
論文 参考訳(メタデータ) (2021-01-14T21:54:55Z) - Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。
この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文 参考訳(メタデータ) (2020-12-20T23:18:51Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。