論文の概要: DQI: Measuring Data Quality in NLP
- arxiv url: http://arxiv.org/abs/2005.00816v1
- Date: Sat, 2 May 2020 12:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:34:11.307949
- Title: DQI: Measuring Data Quality in NLP
- Title(参考訳): dqi: nlpにおけるデータ品質の測定
- Authors: Swaroop Mishra, Anjana Arunkumar, Bhavdeep Sachdeva, Chris Bryan,
Chitta Baral
- Abstract要約: データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
- 参考スコア(独自算出の注目度): 22.54066527822898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural language models have achieved human level performance across several
NLP datasets. However, recent studies have shown that these models are not
truly learning the desired task; rather, their high performance is attributed
to overfitting using spurious biases, which suggests that the capabilities of
AI systems have been over-estimated. We introduce a generic formula for Data
Quality Index (DQI) to help dataset creators create datasets free of such
unwanted biases. We evaluate this formula using a recently proposed approach
for adversarial filtering, AFLite. We propose a new data creation paradigm
using DQI to create higher quality data. The data creation paradigm consists of
several data visualizations to help data creators (i) understand the quality of
data and (ii) visualize the impact of the created data instance on the overall
quality. It also has a couple of automation methods to (i) assist data creators
and (ii) make the model more robust to adversarial attacks. We use DQI along
with these automation methods to renovate biased examples in SNLI. We show that
models trained on the renovated SNLI dataset generalize better to out of
distribution tasks. Renovation results in reduced model performance, exposing a
large gap with respect to human performance. DQI systematically helps in
creating harder benchmarks using active learning. Our work takes the process of
dynamic dataset creation forward, wherein datasets evolve together with the
evolving state of the art, therefore serving as a means of benchmarking the
true progress of AI.
- Abstract(参考訳): ニューラルネットワークモデルは、複数のNLPデータセットで人間レベルのパフォーマンスを達成した。
しかし、最近の研究では、これらのモデルが本当に望ましいタスクを学習しているわけではないことが示されており、そのハイパフォーマンスはスパイラルなバイアスを使って過度に適合しているため、AIシステムの能力が過大評価されていることが示唆されている。
データ品質指標(DQI)の一般的な式を導入し、データセット作成者がそのような望ましくないバイアスのないデータセットを作成するのを支援する。
この式を,最近提案されている逆フィルタリング aflite の手法を用いて評価する。
高品質なデータを作成するためにDQIを用いた新しいデータ生成パラダイムを提案する。
データ作成パラダイムは、データ作成を支援する複数のデータ視覚化で構成されている
(i)データの質を理解し、
(ii) 生成したデータインスタンスが全体的な品質に与える影響を可視化する。
自動化の方法もいくつかあります
(i)データ作成と支援
(二)敵の攻撃に対してモデルをより堅牢にする。
DQIとこれらの自動化手法を使って、SNLIのバイアスのある例を再構築します。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることを示す。
改修により、モデルの性能が低下し、人間のパフォーマンスに対する大きなギャップが露呈する。
DQIは、アクティブラーニングを使って、より難しいベンチマークを作成するのに役立ちます。
私たちの研究は、動的データセット作成のプロセスを前進させ、データセットは技術の進化した状態とともに進化し、AIの真の進歩をベンチマークする手段として役立ちます。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Genie: Achieving Human Parity in Content-Grounded Datasets Generation [15.535753443076002]
本稿では,高品質なコンテンツグラウンドデータの自動生成手法であるGenieを提案する。
3つの大規模合成データを生成することで、この手法を実証する。
人間の評価では、生成したデータは自然で高品質であることが判明した。
論文 参考訳(メタデータ) (2024-01-25T18:14:57Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks [61.51515750218049]
本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。
小型ソフト・プロンプトのみを訓練するPrompt-based Data Augmentation Model (PromDA)を提案する。
PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。
論文 参考訳(メタデータ) (2022-02-25T05:09:27Z) - Exploring the Efficacy of Automatically Generated Counterfactuals for
Sentiment Analysis [17.811597734603144]
本稿では,データ拡張と説明のためのデファクトデータの自動生成手法を提案する。
いくつかの異なるデータセットに対する包括的な評価と、さまざまな最先端ベンチマークの使用により、我々のアプローチがモデルパフォーマンスを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-29T10:27:01Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。