論文の概要: Distributional Ground Truth: Non-Redundant Crowdsourcing Data Quality
Control in UI Labeling Tasks
- arxiv url: http://arxiv.org/abs/2012.13546v1
- Date: Fri, 25 Dec 2020 09:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 06:29:20.239050
- Title: Distributional Ground Truth: Non-Redundant Crowdsourcing Data Quality
Control in UI Labeling Tasks
- Title(参考訳): distributional ground truth: uiラベリングタスクにおける非冗長クラウドソーシングデータ品質管理
- Authors: Maxim Bakaev, Sebastian Heil, Martin Gaedke
- Abstract要約: Web UIラベリングタスクにおけるクラウドワーカーの出力品質を予測する非冗長な手法を提案する。
信頼されたセットサイズが17-27%のUIでは、我々の「分布基底真理」モデルは0.8以上のR2を達成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: HCI increasingly employs Machine Learning and Image Recognition, in
particular for visual analysis of user interfaces (UIs). A popular way for
obtaining human-labeled training data is Crowdsourcing, typically using the
quality control methods ground truth and majority consensus, which necessitate
redundancy in the outcome. In our paper we propose a non-redundant method for
prediction of crowdworkers' output quality in web UI labeling tasks, based on
homogeneity of distributions assessed with two-sample Kolmogorov-Smirnov test.
Using a dataset of about 500 screenshots with over 74,000 UI elements located
and classified by 11 trusted labelers and 298 Amazon Mechanical Turk
crowdworkers, we demonstrate the advantage of our approach over the baseline
model based on mean Time-on-Task. Exploring different dataset partitions, we
show that with the trusted set size of 17-27% UIs our "distributional ground
truth" model can achieve R2s of over 0.8 and help to obviate the ancillary work
effort and expenses.
- Abstract(参考訳): HCIは、特にユーザインターフェイス(UI)の視覚分析に機械学習と画像認識をますます採用している。
ヒューマンラベルのトレーニングデータを取得する一般的な方法はクラウドソーシングであり、一般的には品質管理の方法である ground truth と majority consensus を使い、その結果の冗長性を必要とする。
本稿では,2つのサンプルkolmogorov-smirnovテストにより評価した分布の均質性に基づいて,web uiラベリングタスクにおけるクラウドワーカーの出力品質を予測する非冗長な手法を提案する。
11の信頼できるラベルと298のAmazon Mechanical Turkのクラウドワーカーによって分類された74,000以上のUI要素を持つ約500のスクリーンショットのデータセットを使用して、平均タイム・オン・タスクに基づくベースラインモデルに対する我々のアプローチの利点を実証する。
異なるデータセット分割を検討することで、信頼されたセットサイズ17-27% uisによって、"分散基底真理"モデルが0.8以上のr2を達成し、補助的な作業労力と費用を省くことができることを示します。
関連論文リスト
- Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - The Pursuit of Human Labeling: A New Perspective on Unsupervised
Learning [6.17147517649596]
HUMEは、外部の監視なしに、与えられたデータセットの人間のラベル付けを推測するためのモデルに依存しないフレームワークである。
HUMEはこの洞察を利用して、データセットのすべてのラベリングを探索し、基礎となる人間のラベリングを発見する。
提案手法は,データセットの真理ラベル付けと極めてよく相関していることを示す。
論文 参考訳(メタデータ) (2023-11-06T08:16:41Z) - Crowd-Certain: Label Aggregation in Crowdsourced and Ensemble Learning
Classification [0.0]
クラウドソースおよびアンサンブル学習分類タスクにおけるラベルアグリゲーションのための新しいアプローチであるCrowd-Certainを紹介する。
提案手法は,アノテータと訓練された分類器の整合性を利用して,各アノテータの信頼性スコアを決定する。
我々は10の異なるデータセットにまたがる10の既存手法に対するアプローチを広範囲に評価し、それぞれに異なる数のアノテータをラベル付けした。
論文 参考訳(メタデータ) (2023-10-25T01:58:37Z) - Federated Graph Representation Learning using Self-Supervision [18.015793175772835]
フェデレートグラフ表現学習(FedGRL)は、データキュレーションに関連するプライバシーとコンプライアンスの問題に対処しながら、構造化データに分散トレーニングの利点をもたらす。
クロスサイロクライアントは、ラベル付きまたはラベルなしのデータで膨大な量のラベル付きデータにアクセスでき、また、下流クラスラベルドメインも多様である、現実的で斬新な問題設定を考察する。
我々は,自己監督的目標を用いて協調的に最適化された共有グローバルモデルを学習し,ローカルクライアントモデルを通じて下流タスクの監視を行うモデルに基づく新しいFedGRLの定式化を提案する。
論文 参考訳(メタデータ) (2022-10-27T02:13:42Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Exploiting Shared Representations for Personalized Federated Learning [54.65133770989836]
本稿では,クライアント間の共有データ表現と,クライアント毎のユニークなローカルヘッダを学習するための,新しいフェデレーション学習フレームワークとアルゴリズムを提案する。
提案アルゴリズムは, クライアント間の分散計算能力を利用して, 表現の更新毎に低次元の局所パラメータに対して, 多数の局所更新を行う。
この結果は、データ分布間の共有低次元表現を学習することを目的とした、幅広い種類の問題に対するフェデレーション学習以上の関心を持っている。
論文 参考訳(メタデータ) (2021-02-14T05:36:25Z) - Bayesian Semi-supervised Crowdsourcing [71.20185379303479]
クラウドソーシングは、大規模なデータセットを効率的にラベル付けし、さまざまな学習タスクを実行するための強力なパラダイムとして登場した。
この研究は、半スーパービジョンの2つの体制の下で、半教師付きクラウドソース分類を扱う。
論文 参考訳(メタデータ) (2020-12-20T23:18:51Z) - End-to-End Learning from Noisy Crowd to Supervised Machine Learning
Models [6.278267504352446]
我々は、ハイブリッドインテリジェンス、すなわち深層モデルと人間の専門家を組み合わせることで、ノイズの多いクラウドソースデータからエンドツーエンドの学習フレームワークを設計することを提唱する。
ラベルアグリゲーションは,アノテータの混乱行列を推定して学習プロセスを改善することにより,どのような効果があるかを示す。
我々は、SVMとディープニューラルネットワークを用いて、複数の画像データセット上での戦略の有効性を実証する。
論文 参考訳(メタデータ) (2020-11-13T09:48:30Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。