Fugu-MT 論文翻訳(概要): Models in the Loop: Aiding Crowdworkers with Generative Annotation Assistants

論文の概要: Models in the Loop: Aiding Crowdworkers with Generative Annotation Assistants

arxiv url: http://arxiv.org/abs/2112.09062v1
Date: Thu, 16 Dec 2021 17:59:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-17 16:52:19.411992
Title: Models in the Loop: Aiding Crowdworkers with Generative Annotation Assistants
Title（参考訳）: ループ内のモデル:生成アノテーションアシスタントによるクラウドワーカー支援
Authors: Max Bartolo, Tristan Thrush, Sebastian Riedel, Pontus Stenetorp, Robin Jia, Douwe Kiela
Abstract要約: 我々は、アノテーションが完全に承認、修正、拒否できるリアルタイム提案を提供するジェネレーティブアシスタント(GAA)を導入する。 GAAは、アノテーションの速度の観点から大きな効率性をもたらすと同時に、モデル偽造率の改善につながっている。
参考スコア（独自算出の注目度）: 41.9785159975426
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In Dynamic Adversarial Data Collection (DADC), human annotators are tasked with finding examples that models struggle to predict correctly. Models trained on DADC-collected training data have been shown to be more robust in adversarial and out-of-domain settings, and are considerably harder for humans to fool. However, DADC is more time-consuming than traditional data collection and thus more costly per example. In this work, we examine if we can maintain the advantages of DADC, without suffering the additional cost. To that end, we introduce Generative Annotation Assistants (GAAs), generator-in-the-loop models that provide real-time suggestions that annotators can either approve, modify, or reject entirely. We collect training datasets in twenty experimental settings and perform a detailed analysis of this approach for the task of extractive question answering (QA) for both standard and adversarial data collection. We demonstrate that GAAs provide significant efficiency benefits in terms of annotation speed, while leading to improved model fooling rates. In addition, we show that GAA-assisted data leads to higher downstream model performance on a variety of question answering tasks.
Abstract（参考訳）: Dynamic Adversarial Data Collection (DADC)では、人間のアノテータがモデルが正しく予測するのに苦労する例を見つけることを任務としている。 DADCが収集したトレーニングデータに基づいてトレーニングされたモデルは、敵やドメイン外の設定でより堅牢であることが示されており、人間が騙すのは非常に難しい。しかし、DADCは従来のデータ収集よりも時間がかかり、例ごとにコストがかかる。本研究では,追加費用を負担することなく,DADCの利点を維持できるかどうかを検討する。この目的を達成するために,生成アノテーションアシスタント(gaas)を導入する。これはループ内生成モデルであり,アノテーションの承認,修正,あるいは完全に拒否できるリアルタイムの提案を提供する。学習データセットを20種類の実験環境で収集し,標準データ収集と逆データ収集の両方を対象とした抽出質問応答(QA)タスクについて,本手法の詳細な分析を行う。我々は、gaasがアノテーションの速度という観点で大きな効率の利点を提供し、モデルの騙し率を改善することを実証する。さらに,様々な質問応答タスクにおいて,gaa支援データにより下流モデルの性能が向上することを示す。

関連論文リスト

Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
Adding Conditional Control to Diffusion Models with Reinforcement Learning [59.295203871547336]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。本研究では、オフラインデータセットを活用した強化学習(RL)に基づく新しい制御手法を提案する。
論文参考訳（メタデータ） (2024-06-17T22:00:26Z)
Improving a Named Entity Recognizer Trained on Noisy Data with a Few Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文参考訳（メタデータ） (2023-10-25T17:23:37Z)
Analyzing Dynamic Adversarial Training Data in the Limit [50.00850852546616]
動的逆データ収集(DADC)は、このような多様なトレーニングセットを生成するためのアプローチとして、約束を守る。本研究は,NLIの20ラウンドを少数の前提項で収集する,長期DADCに関する最初の研究である。 DADCの例でトレーニングされたモデルでは、専門家が計算したテストセットのエラーが、非敵のデータでトレーニングされたモデルよりも26%少なくなります。
論文参考訳（メタデータ） (2021-10-16T08:48:52Z)
Exploring the Efficacy of Automatically Generated Counterfactuals for Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文参考訳（メタデータ） (2021-06-29T10:27:01Z)
On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。 ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文参考訳（メタデータ） (2021-06-02T00:48:33Z)
Time-Series Imputation with Wasserstein Interpolation for Optimal Look-Ahead-Bias and Variance Tradeoff [66.59869239999459]
ファイナンスでは、ポートフォリオ最適化モデルをトレーニングする前に、損失の計算を適用することができる。インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。提案手法は,提案法における差分とルックアヘッドバイアスのトレードオフを最適に制御するベイズ後部コンセンサス分布である。
論文参考訳（メタデータ） (2021-02-25T09:05:35Z)
Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。 G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文参考訳（メタデータ） (2020-04-24T06:12:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。