論文の概要: Models in the Loop: Aiding Crowdworkers with Generative Annotation
Assistants
- arxiv url: http://arxiv.org/abs/2112.09062v1
- Date: Thu, 16 Dec 2021 17:59:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 16:52:19.411992
- Title: Models in the Loop: Aiding Crowdworkers with Generative Annotation
Assistants
- Title(参考訳): ループ内のモデル:生成アノテーションアシスタントによるクラウドワーカー支援
- Authors: Max Bartolo, Tristan Thrush, Sebastian Riedel, Pontus Stenetorp, Robin
Jia, Douwe Kiela
- Abstract要約: 我々は、アノテーションが完全に承認、修正、拒否できるリアルタイム提案を提供するジェネレーティブアシスタント(GAA)を導入する。
GAAは、アノテーションの速度の観点から大きな効率性をもたらすと同時に、モデル偽造率の改善につながっている。
- 参考スコア(独自算出の注目度): 41.9785159975426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Dynamic Adversarial Data Collection (DADC), human annotators are tasked
with finding examples that models struggle to predict correctly. Models trained
on DADC-collected training data have been shown to be more robust in
adversarial and out-of-domain settings, and are considerably harder for humans
to fool. However, DADC is more time-consuming than traditional data collection
and thus more costly per example. In this work, we examine if we can maintain
the advantages of DADC, without suffering the additional cost. To that end, we
introduce Generative Annotation Assistants (GAAs), generator-in-the-loop models
that provide real-time suggestions that annotators can either approve, modify,
or reject entirely. We collect training datasets in twenty experimental
settings and perform a detailed analysis of this approach for the task of
extractive question answering (QA) for both standard and adversarial data
collection. We demonstrate that GAAs provide significant efficiency benefits in
terms of annotation speed, while leading to improved model fooling rates. In
addition, we show that GAA-assisted data leads to higher downstream model
performance on a variety of question answering tasks.
- Abstract(参考訳): Dynamic Adversarial Data Collection (DADC)では、人間のアノテータがモデルが正しく予測するのに苦労する例を見つけることを任務としている。
DADCが収集したトレーニングデータに基づいてトレーニングされたモデルは、敵やドメイン外の設定でより堅牢であることが示されており、人間が騙すのは非常に難しい。
しかし、DADCは従来のデータ収集よりも時間がかかり、例ごとにコストがかかる。
本研究では,追加費用を負担することなく,DADCの利点を維持できるかどうかを検討する。
この目的を達成するために,生成アノテーションアシスタント(gaas)を導入する。これはループ内生成モデルであり,アノテーションの承認,修正,あるいは完全に拒否できるリアルタイムの提案を提供する。
学習データセットを20種類の実験環境で収集し,標準データ収集と逆データ収集の両方を対象とした抽出質問応答(QA)タスクについて,本手法の詳細な分析を行う。
我々は、gaasがアノテーションの速度という観点で大きな効率の利点を提供し、モデルの騙し率を改善することを実証する。
さらに,様々な質問応答タスクにおいて,gaa支援データにより下流モデルの性能が向上することを示す。
関連論文リスト
- Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Analyzing Dynamic Adversarial Training Data in the Limit [50.00850852546616]
動的逆データ収集(DADC)は、このような多様なトレーニングセットを生成するためのアプローチとして、約束を守る。
本研究は,NLIの20ラウンドを少数の前提項で収集する,長期DADCに関する最初の研究である。
DADCの例でトレーニングされたモデルでは、専門家が計算したテストセットのエラーが、非敵のデータでトレーニングされたモデルよりも26%少なくなります。
論文 参考訳(メタデータ) (2021-10-16T08:48:52Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Time-Series Imputation with Wasserstein Interpolation for Optimal
Look-Ahead-Bias and Variance Tradeoff [66.59869239999459]
ファイナンスでは、ポートフォリオ最適化モデルをトレーニングする前に、損失の計算を適用することができる。
インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。
提案手法は,提案法における差分とルックアヘッドバイアスのトレードオフを最適に制御するベイズ後部コンセンサス分布である。
論文 参考訳(メタデータ) (2021-02-25T09:05:35Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。