Fugu-MT 論文翻訳(概要): A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment

論文の概要: A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment

arxiv url: http://arxiv.org/abs/2403.08826v1
Date: Sun, 10 Mar 2024 16:00:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 00:51:27.954376
Title: A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment
Title（参考訳）: オンライン展開に適した真理推論アルゴリズムの検証用データセット
Authors: Fei Wang, Haoyu Liu, Haoyang Bi, Xiangzhuang Shen, Renyu Zhu, Runze Wu, Minmin Lin, Tangjie Lv, Changjie Fan, Qi Liu, Zhenya Huang, Enhong Chen,
Abstract要約: 実世界のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。本データセットにおけるいくつかの代表的真理推論アルゴリズムの有効性を評価する。
参考スコア（独自算出の注目度）: 76.04306818209753
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: For the purpose of efficient and cost-effective large-scale data labeling, crowdsourcing is increasingly being utilized. To guarantee the quality of data labeling, multiple annotations need to be collected for each data sample, and truth inference algorithms have been developed to accurately infer the true labels. Despite previous studies having released public datasets to evaluate the efficacy of truth inference algorithms, these have typically focused on a single type of crowdsourcing task and neglected the temporal information associated with workers' annotation activities. These limitations significantly restrict the practical applicability of these algorithms, particularly in the context of long-term and online truth inference. In this paper, we introduce a substantial crowdsourcing annotation dataset collected from a real-world crowdsourcing platform. This dataset comprises approximately two thousand workers, one million tasks, and six million annotations. The data was gathered over a period of approximately six months from various types of tasks, and the timestamps of each annotation were preserved. We analyze the characteristics of the dataset from multiple perspectives and evaluate the effectiveness of several representative truth inference algorithms on this dataset. We anticipate that this dataset will stimulate future research on tracking workers' abilities over time in relation to different types of tasks, as well as enhancing online truth inference.
Abstract（参考訳）: 効率的で費用対効果の高い大規模データラベリングを目的として,クラウドソーシングがますます活用されている。データラベリングの品質を保証するために、各データサンプルに対して複数のアノテーションを収集する必要がある。これまでの研究は、真理推論アルゴリズムの有効性を評価するための公開データセットを公開していたが、それらは一般的に、単一のタイプのクラウドソーシングタスクに焦点を合わせ、労働者のアノテーション活動に関連する時間的情報を無視してきた。これらの制限は、特に長期およびオンラインの真理推論の文脈において、これらのアルゴリズムの実践的適用性を著しく制限する。本稿では,現実のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。データは様々なタスクから約6ヶ月にわたって収集され、各アノテーションのタイムスタンプが保存された。複数の視点からデータセットの特徴を分析し、このデータセット上でのいくつかの代表的真理推論アルゴリズムの有効性を評価する。このデータセットは、様々な種類のタスクに関連する労働者の能力の時間的追跡と、オンラインの真理推論の強化を期待する。

関連論文リスト

Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文参考訳（メタデータ） (2025-08-07T16:27:37Z)
Beyond Confusion: A Fine-grained Dialectical Examination of Human Activity Recognition Benchmark Datasets [4.249657064343807]
HAR(Human Activity Recognition)のための機械学習アルゴリズムの研究は、公開データセットで大きく進歩した。トランスフォーマーのような最近のモデルは、ベンチマーク指標から限られた成功を収めたHARデータセットに適用されている。本稿では,6つの人気のあるHARベンチマークデータセットのきめ細かい検査を行うことで,これらのオープンな問題に対処することを目的とする。
論文参考訳（メタデータ） (2024-12-12T07:53:17Z)
Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。手書き文字認識のためのMNISTデータセットの実験を行った。根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文参考訳（メタデータ） (2024-10-16T10:28:22Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation [9.497148303350697]
本稿では,LCMに基づくデータアノテーションの適用を拡大し,既存のデータセットの品質を向上させるケーススタディを提案する。具体的には、連鎖や多数決のようなアプローチを利用して、人間のアノテーションを模倣し、Multi-Newsデータセットから無関係な文書を分類する。
論文参考訳（メタデータ） (2024-04-15T11:36:10Z)
Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文参考訳（メタデータ） (2024-01-29T03:42:37Z)
An Algorithm for Streaming Differentially Private Data [7.726042106665366]
我々は、特に空間データセットに対して計算された、微分プライベートな合成ストリーミングデータ生成のためのアルゴリズムを導出する。本アルゴリズムの有効性は実世界とシミュレーションデータセットの両方で検証される。
論文参考訳（メタデータ） (2024-01-26T00:32:31Z)
Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文参考訳（メタデータ） (2022-02-03T17:25:46Z)
Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文参考訳（メタデータ） (2020-12-20T23:18:51Z)
Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文参考訳（メタデータ） (2020-07-07T04:17:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。