論文の概要: Beat the AI: Investigating Adversarial Human Annotation for Reading
Comprehension
- arxiv url: http://arxiv.org/abs/2002.00293v2
- Date: Tue, 22 Sep 2020 16:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 20:06:49.201031
- Title: Beat the AI: Investigating Adversarial Human Annotation for Reading
Comprehension
- Title(参考訳): AIに勝て - 理解を読むための敵対的人間アノテーションの調査
- Authors: Max Bartolo, Alastair Roberts, Johannes Welbl, Sebastian Riedel,
Pontus Stenetorp
- Abstract要約: 人間は、モデルが正しい答えに失敗するように、逆さまに質問を作成する。
アノテーションループでは,より強力なモデルで36,000のサンプルを収集する。
その結果,非対向的なサンプルの学習は,非対向的なデータセットに強い一般化をもたらすことがわかった。
より強力なモデルは、より弱いループモデルで収集されたデータセットから学習できることが分かっています。
- 参考スコア(独自算出の注目度): 27.538957000237176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Innovations in annotation methodology have been a catalyst for Reading
Comprehension (RC) datasets and models. One recent trend to challenge current
RC models is to involve a model in the annotation process: humans create
questions adversarially, such that the model fails to answer them correctly. In
this work we investigate this annotation methodology and apply it in three
different settings, collecting a total of 36,000 samples with progressively
stronger models in the annotation loop. This allows us to explore questions
such as the reproducibility of the adversarial effect, transfer from data
collected with varying model-in-the-loop strengths, and generalisation to data
collected without a model. We find that training on adversarially collected
samples leads to strong generalisation to non-adversarially collected datasets,
yet with progressive performance deterioration with increasingly stronger
models-in-the-loop. Furthermore, we find that stronger models can still learn
from datasets collected with substantially weaker models-in-the-loop. When
trained on data collected with a BiDAF model in the loop, RoBERTa achieves
39.9F1 on questions that it cannot answer when trained on SQuAD - only
marginally lower than when trained on data collected using RoBERTa itself
(41.0F1).
- Abstract(参考訳): アノテーション方法論の革新は、参照理解(RC)データセットとモデルのための触媒となっている。
現在のRCモデルに挑戦する最近のトレンドの1つは、アノテーションプロセスにモデルを含めることである。
そこで本研究では,このアノテーション手法を3つの異なる設定に適用し,アノテーションループ内でより強力なモデルを持つ合計36,000のサンプルを収集する。
これにより、逆効果の再現性、様々なモデル・イン・ザ・ループ強度で収集されたデータからの転送、モデル無しで収集されたデータへの一般化といった疑問を探求することができる。
その結果, 対向的に収集したサンプルのトレーニングは, 非対向的に収集したデータセットに強い一般化をもたらすことがわかった。
さらに,より強力なモデルでも,より弱いモデルで収集したデータセットから学習できることがわかった。
ループ内のBiDAFモデルで収集されたデータに基づいてトレーニングされたRoBERTaは、SQuADでトレーニングされた時に答えられない質問に対して39.9F1を達成する。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - REFINE on Scarce Data: Retrieval Enhancement through Fine-Tuning via Model Fusion of Embedding Models [14.023953508288628]
検索拡張生成(RAG)パイプラインは、質問応答(QA)などのタスクで一般的に使用される。
本稿では,利用可能な文書から合成データを生成する新しい手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2024-10-16T08:43:39Z) - Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems [17.10762463903638]
我々は人的評価を近似するために評価モデルを訓練し、高い合意を得る。
そこで本研究では,アノテートデータの一部を用いて評価モデルを訓練する弱強監督手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T10:48:14Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Improving Question Answering Model Robustness with Synthetic Adversarial
Data Generation [41.9785159975426]
最先端の質問応答モデルは、様々な敵の攻撃を受けやすいままであり、人間レベルの言語理解を得るには程遠い。
提案されている1つの方法は動的逆データ収集であり、人間のアノテータがループ内のモデルが失敗する例を作成しようとするものである。
本研究では,合成逆データ生成パイプラインを構成する複数の回答選択,質問生成,フィルタリング手法について検討する。
合成データと人為的データの両方で訓練されたモデルは、合成逆数データで訓練されていないモデルより優れ、対数上での最先端の結果を得る
論文 参考訳(メタデータ) (2021-04-18T02:00:06Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Exposing Shallow Heuristics of Relation Extraction Models with Challenge
Data [49.378860065474875]
我々は、TACREDで訓練されたSOTA関係抽出(RE)モデルの故障モードを同定する。
トレーニングの例として、いくつかの課題データを追加することで、モデルのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-07T21:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。