Fugu-MT 論文翻訳(概要): On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study

論文の概要: On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study

arxiv url: http://arxiv.org/abs/2106.00872v1
Date: Wed, 2 Jun 2021 00:48:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-03 14:51:47.807198
Title: On the Efficacy of Adversarial Data Collection for Question Answering: Results from a Large-Scale Randomized Study
Title（参考訳）: 質問応答に対する逆データ収集の有効性について:大規模ランダム化研究の結果から
Authors: Divyansh Kaushik, Douwe Kiela, Zachary C. Lipton, Wen-tau Yih
Abstract要約: 逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。 ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
参考スコア（独自算出の注目度）: 65.17429512679695
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In adversarial data collection (ADC), a human workforce interacts with a model in real time, attempting to produce examples that elicit incorrect predictions. Researchers hope that models trained on these more challenging datasets will rely less on superficial patterns, and thus be less brittle. However, despite ADC's intuitive appeal, it remains unclear when training on adversarial datasets produces more robust models. In this paper, we conduct a large-scale controlled study focused on question answering, assigning workers at random to compose questions either (i) adversarially (with a model in the loop); or (ii) in the standard fashion (without a model). Across a variety of models and datasets, we find that models trained on adversarial data usually perform better on other adversarial datasets but worse on a diverse collection of out-of-domain evaluation sets. Finally, we provide a qualitative analysis of adversarial (vs standard) data, identifying key differences and offering guidance for future research.
Abstract（参考訳）: 逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。研究者たちは、これらのより困難なデータセットで訓練されたモデルが表面パターンに頼らず、脆くならないことを望んでいる。しかし、ADCの直感的な魅力にもかかわらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。本稿では,質問応答に焦点をあてた大規模制御研究を行い,作業員をランダムに割り当て,(i)逆方向(ループ内モデル付き)あるいは(ii)標準方式(モデルなし)の問合せを行う。様々なモデルやデータセットを通して、敵データに基づいて訓練されたモデルは、通常、他の敵データセットよりも優れているが、ドメイン外評価セットの多様なコレクションでは、より悪い。最後に,vs標準(adversarial)データの質的分析を行い,重要な違いを特定し,今後の研究のためのガイダンスを提供する。

関連論文リスト

More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文参考訳（メタデータ） (2025-04-03T00:36:40Z)
A Study on Domain Generalization for Failure Detection through Human Reactions in HRI [7.664159325276515]
マシンラーニングモデルは一般的に、分散(データセット)でテストされる。これにより、ドメインの一般化 - 異なる設定でパフォーマンスを維持する - が重要な問題となる。本稿では,人間の表情を訓練した故障検出モデルにおける領域一般化の簡潔な解析を行う。
論文参考訳（メタデータ） (2024-03-10T21:30:22Z)
Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文参考訳（メタデータ） (2023-11-29T05:33:28Z)
Think Twice: Measuring the Efficiency of Eliminating Prediction Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文参考訳（メタデータ） (2023-05-11T14:35:00Z)
Synthetic Model Combination: An Instance-wise Approach to Unsupervised Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文参考訳（メタデータ） (2022-10-11T10:20:31Z)
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文参考訳（メタデータ） (2022-10-10T11:05:21Z)
Sharing pattern submodels for prediction with missing values [12.981974894538668]
機械学習の多くのアプリケーションでは欠落値は避けられず、トレーニング中もテスト時にも課題が提示される。パターンサブモデル(パターンサブモデル)と呼ばれる別の手法を提案する。これは、テスト時に欠落した値に対して、予測を堅牢にし、パターンサブモデルの予測力を維持または改善させる。
論文参考訳（メタデータ） (2022-06-22T15:09:40Z)
Zero-shot meta-learning for small-scale data from human subjects [10.320654885121346]
我々は,サンプル外テストデータに対する限られたトレーニングデータを用いて,新しい予測タスクに迅速に適応するフレームワークを開発した。本モデルでは, 介入による遅延処理効果を学習し, 設計上はマルチタスク予測を自然に処理できる。我々のモデルは、より広い人口への小型人間研究の一般化を向上するために重要である。
論文参考訳（メタデータ） (2022-03-29T17:42:04Z)
Analyzing Dynamic Adversarial Training Data in the Limit [50.00850852546616]
動的逆データ収集(DADC)は、このような多様なトレーニングセットを生成するためのアプローチとして、約束を守る。本研究は,NLIの20ラウンドを少数の前提項で収集する,長期DADCに関する最初の研究である。 DADCの例でトレーニングされたモデルでは、専門家が計算したテストセットのエラーが、非敵のデータでトレーニングされたモデルよりも26%少なくなります。
論文参考訳（メタデータ） (2021-10-16T08:48:52Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
Improving Question Answering Model Robustness with Synthetic Adversarial Data Generation [41.9785159975426]
最先端の質問応答モデルは、様々な敵の攻撃を受けやすいままであり、人間レベルの言語理解を得るには程遠い。提案されている1つの方法は動的逆データ収集であり、人間のアノテータがループ内のモデルが失敗する例を作成しようとするものである。本研究では,合成逆データ生成パイプラインを構成する複数の回答選択,質問生成,フィルタリング手法について検討する。合成データと人為的データの両方で訓練されたモデルは、合成逆数データで訓練されていないモデルより優れ、対数上での最先端の結果を得る
論文参考訳（メタデータ） (2021-04-18T02:00:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。