論文の概要: A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment
- arxiv url: http://arxiv.org/abs/2403.08826v1
- Date: Sun, 10 Mar 2024 16:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 00:51:27.954376
- Title: A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment
- Title(参考訳): オンライン展開に適した真理推論アルゴリズムの検証用データセット
- Authors: Fei Wang, Haoyu Liu, Haoyang Bi, Xiangzhuang Shen, Renyu Zhu, Runze Wu, Minmin Lin, Tangjie Lv, Changjie Fan, Qi Liu, Zhenya Huang, Enhong Chen,
- Abstract要約: 実世界のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。
このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。
本データセットにおけるいくつかの代表的真理推論アルゴリズムの有効性を評価する。
- 参考スコア(独自算出の注目度): 76.04306818209753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For the purpose of efficient and cost-effective large-scale data labeling, crowdsourcing is increasingly being utilized. To guarantee the quality of data labeling, multiple annotations need to be collected for each data sample, and truth inference algorithms have been developed to accurately infer the true labels. Despite previous studies having released public datasets to evaluate the efficacy of truth inference algorithms, these have typically focused on a single type of crowdsourcing task and neglected the temporal information associated with workers' annotation activities. These limitations significantly restrict the practical applicability of these algorithms, particularly in the context of long-term and online truth inference. In this paper, we introduce a substantial crowdsourcing annotation dataset collected from a real-world crowdsourcing platform. This dataset comprises approximately two thousand workers, one million tasks, and six million annotations. The data was gathered over a period of approximately six months from various types of tasks, and the timestamps of each annotation were preserved. We analyze the characteristics of the dataset from multiple perspectives and evaluate the effectiveness of several representative truth inference algorithms on this dataset. We anticipate that this dataset will stimulate future research on tracking workers' abilities over time in relation to different types of tasks, as well as enhancing online truth inference.
- Abstract(参考訳): 効率的で費用対効果の高い大規模データラベリングを目的として,クラウドソーシングがますます活用されている。
データラベリングの品質を保証するために、各データサンプルに対して複数のアノテーションを収集する必要がある。
これまでの研究は、真理推論アルゴリズムの有効性を評価するための公開データセットを公開していたが、それらは一般的に、単一のタイプのクラウドソーシングタスクに焦点を合わせ、労働者のアノテーション活動に関連する時間的情報を無視してきた。
これらの制限は、特に長期およびオンラインの真理推論の文脈において、これらのアルゴリズムの実践的適用性を著しく制限する。
本稿では,現実のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。
このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。
データは様々なタスクから約6ヶ月にわたって収集され、各アノテーションのタイムスタンプが保存された。
複数の視点からデータセットの特徴を分析し、このデータセット上でのいくつかの代表的真理推論アルゴリズムの有効性を評価する。
このデータセットは、様々な種類のタスクに関連する労働者の能力の時間的追跡と、オンラインの真理推論の強化を期待する。
関連論文リスト
- Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation [9.497148303350697]
本稿では,大規模言語モデル(LLM)をデータアノテーションに適用し,既存のデータセットの品質を高めるケーススタディを提案する。
具体的には、チェーン・オブ・思想(CoT)や多数決のようなアプローチを利用して、人間のアノテーションを模倣し、Multi-Newsデータセットから無関係な文書を分類する。
論文 参考訳(メタデータ) (2024-04-15T11:36:10Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and
Data Attribution [67.28273187033693]
アモート化(amortization)と呼ばれる,所望の出力を直接予測するネットワークのトレーニングは安価で,驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - An Algorithm for Streaming Differentially Private Data [7.726042106665366]
我々は、特に空間データセットに対して計算された、微分プライベートな合成ストリーミングデータ生成のためのアルゴリズムを導出する。
本アルゴリズムの有効性は実世界とシミュレーションデータセットの両方で検証される。
論文 参考訳(メタデータ) (2024-01-26T00:32:31Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。
この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文 参考訳(メタデータ) (2020-12-20T23:18:51Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。