論文の概要: Counterfactually-Augmented SNLI Training Data Does Not Yield Better
Generalization Than Unaugmented Data
- arxiv url: http://arxiv.org/abs/2010.04762v1
- Date: Fri, 9 Oct 2020 18:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:41:58.799568
- Title: Counterfactually-Augmented SNLI Training Data Does Not Yield Better
Generalization Than Unaugmented Data
- Title(参考訳): SNLIトレーニングデータは、拡張データよりも優れた一般化を得られない
- Authors: William Huang, Haokun Liu, and Samuel R. Bowman
- Abstract要約: 自然言語理解データのカウンターファクト拡張は、トレーニングデータの収集に有効な方法ではない。
本研究は、英語の自然言語推論データを用いて、モデル一般化とロバスト性をテストする。
- 参考スコア(独自算出の注目度): 27.738670027154555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing body of work shows that models exploit annotation artifacts to
achieve state-of-the-art performance on standard crowdsourced
benchmarks---datasets collected from crowdworkers to create an evaluation
task---while still failing on out-of-domain examples for the same task. Recent
work has explored the use of counterfactually-augmented data---data built by
minimally editing a set of seed examples to yield counterfactual labels---to
augment training data associated with these benchmarks and build more robust
classifiers that generalize better. However, Khashabi et al. (2020) find that
this type of augmentation yields little benefit on reading comprehension tasks
when controlling for dataset size and cost of collection. We build upon this
work by using English natural language inference data to test model
generalization and robustness and find that models trained on a
counterfactually-augmented SNLI dataset do not generalize better than
unaugmented datasets of similar size and that counterfactual augmentation can
hurt performance, yielding models that are less robust to challenge examples.
Counterfactual augmentation of natural language understanding data through
standard crowdsourcing techniques does not appear to be an effective way of
collecting training data and further innovation is required to make this
general line of work viable.
- Abstract(参考訳): モデルがアノテーションのアーティファクトを利用して、標準のクラウドソースベンチマークで最先端のパフォーマンスを実現していることを示している – クラウドワーカーから収集されたデータセットが、評価タスクを生成する - 同じタスクのドメイン外の例では、依然として失敗している。
最近の研究は、反ファクト的に拡張されたデータ - シードサンプルの集合を最小限に編集して反ファクトラベルを得るデータ - を使うことで、これらのベンチマークに関連するトレーニングデータを拡張し、より堅牢な分類器を構築し、より一般化する。
しかし、Khashabi et al. (2020) は、このような拡張はデータセットのサイズと収集コストを制御する際に、理解的なタスクを読むことにはほとんど利益をもたらすことを見出した。
我々は、英語の自然言語推論データを用いてモデルの一般化と堅牢性をテストすることにより、同様の大きさの非推論データセットよりも、対置型snliデータセットでトレーニングされたモデルの方が汎用性が低く、対置型拡張がパフォーマンスを損なう可能性があり、例に挑むのにロバストでないモデルが得られることを発見した。
標準的なクラウドソーシング技術による自然言語理解データのカウンターファクト改善は、トレーニングデータ収集の効果的な方法とは思えず、この一般的な作業ラインの実現にはさらなる革新が必要である。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Combining Public Human Activity Recognition Datasets to Mitigate Labeled
Data Scarcity [1.274578243851308]
本稿では,一般公開されたデータセットと一般化されたHARモデルを学習するための新たな戦略を提案する。
我々の実験評価は、さまざまな最先端ニューラルネットワークアーキテクチャの実験を含むもので、公開データセットを組み合わせることで、ラベル付きサンプルの数を著しく削減できることを示している。
論文 参考訳(メタデータ) (2023-06-23T18:51:22Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Augmenting NLP data to counter Annotation Artifacts for NLI Tasks [0.0]
大規模な事前トレーニングされたNLPモデルは、ベンチマークデータセット上で高いパフォーマンスを達成するが、基礎となるタスクを実際に"解決"することはない。
モデルの性能の限界を理解するために、まずコントラストと逆例を用いてこの現象を探求する。
次に、このバイアスを修正し、その有効性を測定するためのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-09T15:34:53Z) - Robust Task-Oriented Dialogue Generation with Contrastive Pre-training
and Adversarial Filtering [17.7709632238066]
データアーティファクトは機械学習モデルにインセンティブを与え、非伝達可能な一般化を学ぶ。
我々は、MultiWOZのような一般的なデータセットがそのようなデータアーティファクトを含んでいるかどうかを検討する。
本稿では,これらの手法を無視し,一般化可能なパターンを学習することをモデルに推奨する,対照的な学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T03:13:02Z) - Falsesum: Generating Document-level NLI Examples for Recognizing Factual
Inconsistency in Summarization [63.21819285337555]
高品質なタスク指向の例でトレーニングデータを拡張した場合,NLIモデルがこのタスクに有効であることを示す。
我々は、制御可能なテキスト生成モデルを利用して、人間の注釈付き要約を摂動させるデータ生成パイプラインであるFalsesumを紹介した。
本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルにより,4つのベンチマークを用いて,要約における事実整合性を検出することにより,最先端のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-05-12T10:43:42Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。