論文の概要: What Ingredients Make for an Effective Crowdsourcing Protocol for
Difficult NLU Data Collection Tasks?
- arxiv url: http://arxiv.org/abs/2106.00794v1
- Date: Tue, 1 Jun 2021 21:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:44:41.463983
- Title: What Ingredients Make for an Effective Crowdsourcing Protocol for
Difficult NLU Data Collection Tasks?
- Title(参考訳): NLUデータ収集作業の難しさに対する効果的なクラウドソーシングプロトコルについて
- Authors: Nikita Nangia, Saku Sugawara, Harsh Trivedi, Alex Warstadt, Clara
Vania, Samuel R. Bowman
- Abstract要約: 我々は、データ品質を改善する方法として、先行研究で提案された介入の有効性を比較した。
我々は,NLU例の難易度を高めるための非効率なスタンドアロン戦略として,実例の説明書を書くよう労働者に求めていることを見出した。
専門家評価を伴う反復的プロトコルからのデータは、いくつかの尺度によりより困難であることが観察された。
- 参考スコア(独自算出の注目度): 31.39009622826369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowdsourcing is widely used to create data for common natural language
understanding tasks. Despite the importance of these datasets for measuring and
refining model understanding of language, there has been little focus on the
crowdsourcing methods used for collecting the datasets. In this paper, we
compare the efficacy of interventions that have been proposed in prior work as
ways of improving data quality. We use multiple-choice question answering as a
testbed and run a randomized trial by assigning crowdworkers to write questions
under one of four different data collection protocols. We find that asking
workers to write explanations for their examples is an ineffective stand-alone
strategy for boosting NLU example difficulty. However, we find that training
crowdworkers, and then using an iterative process of collecting data, sending
feedback, and qualifying workers based on expert judgments is an effective
means of collecting challenging data. But using crowdsourced, instead of expert
judgments, to qualify workers and send feedback does not prove to be effective.
We observe that the data from the iterative protocol with expert assessments is
more challenging by several measures. Notably, the human--model gap on the
unanimous agreement portion of this data is, on average, twice as large as the
gap for the baseline protocol data.
- Abstract(参考訳): クラウドソーシングは、共通の自然言語理解タスクのためのデータを作成するために広く使われている。
これらのデータセットは、言語のモデル理解の測定と精細化において重要であるが、データセットの収集に使用されるクラウドソーシング手法にはほとんど焦点が当てられていない。
本稿では,データ品質向上手法として,先行研究で提案された介入の有効性を比較した。
複数項目の質問応答をテストベッドとして使用し、4つの異なるデータ収集プロトコルの1つで質問を書くようクラウドワーカーに割り当ててランダムに試行します。
我々は,NLU例の難易度を高めるための非効率なスタンドアロン戦略として,実例の説明書を書くよう労働者に求めた。
しかし,データ収集やフィードバックの送付,専門家の判断に基づく資格取得といった反復的なプロセスは,クラウドワーカーの育成に有効であることが判明した。
しかし、専門家の判断ではなくクラウドソーシングを使って労働者を認定し、フィードバックを送ることは効果的ではない。
専門家評価を伴う反復的プロトコルからのデータは、いくつかの尺度によりより困難である。
特に、このデータの満場一致部分におけるヒューマンモデルギャップは、平均して、ベースラインプロトコルデータのギャップの2倍の大きさである。
関連論文リスト
- A Dataset for the Validation of Truth Inference Algorithms Suitable for Online Deployment [76.04306818209753]
実世界のクラウドソーシングプラットフォームから収集した,実質的なクラウドソーシングアノテーションデータセットを紹介する。
このデータセットは、約2万のワーカー、100万のタスク、600万のアノテーションで構成されている。
本データセットにおけるいくつかの代表的真理推論アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-10T16:00:41Z) - From Random to Informed Data Selection: A Diversity-Based Approach to
Optimize Human Annotation and Few-Shot Learning [38.30983556062276]
自然言語処理における大きな課題は、教師付き学習のための注釈付きデータを取得することである。
クラウドソーシングは、アノテータの経験、一貫性、バイアスに関連する問題を導入する。
本稿では,数ショット学習のための小さなデータセットを構築するための,自動的および情報的データ選択アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:57:32Z) - Behavior Retrieval: Few-Shot Imitation Learning by Querying Unlabeled
Datasets [73.2096288987301]
オフラインでラベル付けされていないデータセットから、少量のダウンストリーム専門家データを用いて、関連する振る舞いを選択的にクエリする簡単なアプローチを提案する。
提案手法では,タスクへの関連する遷移のみを問合せし,サブ最適データやタスク非関連データをフィルタリングする。
我々の単純なクエリ手法は、画像からシミュレーションされた実際のロボット操作タスクに対して、より複雑な目標条件の手法よりも20%優れています。
論文 参考訳(メタデータ) (2023-04-18T05:42:53Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Human-in-the-Loop for Data Collection: a Multi-Target Counter Narrative
Dataset to Fight Online Hate Speech [10.323063834827416]
カウンター・ナラティブと呼ばれる、情報や非攻撃的な反応によるヘイトフルコンテンツの影響を損なうことは、より健康的なオンラインコミュニティを実現するための解決策として浮上している。
本稿では、生成言語モデルを反復的に洗練する新しいヒューマン・イン・ザ・ループデータ収集手法を提案する。
その結果、この方法論はスケーラブルであり、多種多様で斬新で費用対効果の高いデータ収集を促進することが示されている。
論文 参考訳(メタデータ) (2021-07-19T09:45:54Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Does Putting a Linguist in the Loop Improve NLU Data Collection? [34.34874979524489]
クラウドソーシングNLPデータセットには、データ収集が完了した後にのみ識別される体系的なギャップとバイアスが含まれます。
テストケースとして自然言語を推論し、データ収集中に言語学者をループに配置することが有益かどうかを問う。
論文 参考訳(メタデータ) (2021-04-15T00:31:10Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。