論文の概要: Toward Effective Automated Content Analysis via Crowdsourcing
- arxiv url: http://arxiv.org/abs/2101.04615v1
- Date: Tue, 12 Jan 2021 17:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:48:57.078388
- Title: Toward Effective Automated Content Analysis via Crowdsourcing
- Title(参考訳): クラウドソーシングによる効果的なコンテンツ分析に向けて
- Authors: Jiele Wu, Chau-Wai Wong, Xinyan Zhao, Xianpeng Liu
- Abstract要約: オンラインワーカー向けの品質認識型セマンティックデータアノテーションシステムを提案する。
品質スコアによって定量化された労働者のパフォーマンスに対するタイムリーなフィードバックにより、より情報のあるオンライン労働者は、ラベル付けの品質を維持することができる。
その結果,研究者は主観的意味的特徴の質の高い回答を大規模に収集できることが示唆された。
- 参考スコア(独自算出の注目度): 6.89765603922453
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many computer scientists use the aggregated answers of online workers to
represent ground truth. Prior work has shown that aggregation methods such as
majority voting are effective for measuring relatively objective features. For
subjective features such as semantic connotation, online workers, known for
optimizing their hourly earnings, tend to deteriorate in the quality of their
responses as they work longer. In this paper, we aim to address this issue by
proposing a quality-aware semantic data annotation system. We observe that with
timely feedback on workers' performance quantified by quality scores, better
informed online workers can maintain the quality of their labeling throughout
an extended period of time. We validate the effectiveness of the proposed
annotation system through i) evaluating performance based on an expert-labeled
dataset, and ii) demonstrating machine learning tasks that can lead to
consistent learning behavior with 70%-80% accuracy. Our results suggest that
with our system, researchers can collect high-quality answers of subjective
semantic features at a large scale.
- Abstract(参考訳): 多くのコンピュータ科学者は、オンラインワーカーの集約された回答を使って真実を表現している。
先行研究では、多数決のような集計手法が比較的客観的な特徴を測定するのに有効であることが示されている。
意味的意味づけのような主観的な機能では、時間ごとの収益を最適化することで知られるオンラインワーカーは、より長く働くと応答の質が低下する傾向がある。
本稿では,品質を意識したセマンティックデータアノテーションシステムを提案することで,この問題に対処しようとする。
我々は、品質スコアによって定量化された労働者のパフォーマンスに対するタイムリーなフィードバックにより、オンライン労働者が長期にわたってラベル付けの品質を維持することができることを観察した。
提案するアノテーションシステムの有効性を検証するために,i) エキスパートラベルデータセットに基づく性能評価,ii) 70%から80%の精度で一貫した学習行動をもたらす機械学習タスクの実証を行った。
その結果,本システムでは主観的意味的特徴の質の高い回答を大規模に収集できることが示唆された。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Iterative Feature Boosting for Explainable Speech Emotion Recognition [17.568724398229232]
本稿では,効率的な特徴工学手法に基づく新しい教師付きSER手法を提案する。
特徴の関連性を評価し,特徴セットを洗練させるために,結果の説明可能性に特に注意を払っている。
提案手法は,TESSデータセット上での感情認識において,ヒトレベルのパフォーマンス(HLP)および最先端の機械学習手法より優れる。
論文 参考訳(メタデータ) (2024-05-30T15:44:27Z) - Data Quality in Crowdsourcing and Spamming Behavior Detection [2.6481162211614118]
本稿では,データ品質を評価し,分散分解によるスパムの脅威を検出するための体系的手法を提案する。
データ一貫性を評価するためにスパマーインデックスが提案され、群衆労働者の信頼性を測定するために2つの指標が開発された。
論文 参考訳(メタデータ) (2024-04-04T02:21:38Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - rWISDM: Repaired WISDM, a Public Dataset for Human Activity Recognition [0.0]
HAR(Human Activity Recognition)は、医療、運動競技、スマートシティ、スマートホームといった様々な分野に応用されているため、近年の科学的研究において注目されている。
本稿では,他の研究者が公開データセットに類似した問題を同定し,修正する手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T13:55:50Z) - Active Learning of Ordinal Embeddings: A User Study on Football Data [4.856635699699126]
人間は本来、未知の類似性関数を使用してラベル付けされていないデータセットのインスタンス間の距離を計測する。
この研究はディープ・メトリック・ラーニングを使用して、大規模なフットボールの軌跡データセットのアノテーションからユーザ定義の類似性関数を学習する。
論文 参考訳(メタデータ) (2022-07-26T07:55:23Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - Improving Few-Shot Learning with Auxiliary Self-Supervised Pretext Tasks [0.0]
最近の少数ショット学習の研究は、学習された表現の質が少数ショット分類のパフォーマンスにおいて重要な役割を果たしていることを示しています。
一方,自己教師付き学習の目標は,クラスラベルを使わずにデータの有用な意味情報を復元することである。
我々は,最近の自己教師あり手法を補助タスクとして利用するマルチタスクフレームワークを用いて,両パラダイムの相補性を活用する。
論文 参考訳(メタデータ) (2021-01-24T23:21:43Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。