論文の概要: A Proposal to Study "Is High Quality Data All We Need?"
- arxiv url: http://arxiv.org/abs/2203.06404v1
- Date: Sat, 12 Mar 2022 10:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 14:07:44.625767
- Title: A Proposal to Study "Is High Quality Data All We Need?"
- Title(参考訳): ハイクオリティデータはすべて必要か?」研究への一提案
- Authors: Swaroop Mishra and Anjana Arunkumar
- Abstract要約: 本稿では,高品質なベンチマークデータのサブセットの選択方法,および/または生成方法を検討するための実証的研究を提案する。
私たちは、タスクを学ぶために大きなデータセットが本当に必要かどうか、そして、高品質なデータの小さなサブセットが大きなデータセットを置き換えることができるかどうかに答えようとしています。
- 参考スコア(独自算出の注目度): 8.122270502556374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even though deep neural models have achieved superhuman performance on many
popular benchmarks, they have failed to generalize to OOD or adversarial
datasets. Conventional approaches aimed at increasing robustness include
developing increasingly large models and augmentation with large scale
datasets. However, orthogonal to these trends, we hypothesize that a smaller,
high quality dataset is what we need. Our hypothesis is based on the fact that
deep neural networks are data driven models, and data is what leads/misleads
models. In this work, we propose an empirical study that examines how to select
a subset of and/or create high quality benchmark data, for a model to learn
effectively. We seek to answer if big datasets are truly needed to learn a
task, and whether a smaller subset of high quality data can replace big
datasets. We plan to investigate both data pruning and data creation paradigms
to generate high quality datasets.
- Abstract(参考訳): ディープニューラルモデルは、多くの人気のあるベンチマークで超人的性能を達成したが、OODや敵対的なデータセットへの一般化には失敗した。
従来の堅牢性向上を目的としたアプローチとしては,大規模モデルの開発や大規模データセットの拡張などがある。
しかし、これらの傾向に直交して、より小さく高品質なデータセットが必要とされるものであると仮定する。
我々の仮説は、ディープニューラルネットワークがデータ駆動モデルであり、データがリード/ミスリードモデルであるという事実に基づいている。
本研究では,モデルが効果的に学習できるように,高品質なベンチマークデータのサブセットを選択・作成する方法を検証した経験的研究を行う。
私たちは、タスクを学ぶためにbig datasetが本当に必要か、高品質なデータの小さなサブセットがbig datasetを置き換えることができるか、という疑問に答えたいと考えています。
我々は,高品質なデータセットを生成するために,データプルーニングとデータ生成パラダイムの両方を検討する。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data [10.217822818544475]
大規模言語モデル(LLM)を用いた合成(語彙)データを生成するフレームワークを提案する。
提案手法は, サンプルサイズが小さい一般的なシナリオにおいて, 合成データ生成の品質を著しく向上させる。
以上の結果から,本モデルは下流タスクにおける高品質な合成データを生成する上で,実際のデータのプライバシを維持しつつ,いくつかの最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-15T06:26:17Z) - How big is Big Data? [0.18472148461613155]
一般的な材料科学の機械学習問題において、それが何を意味するかを評価する。
モデルが類似したデータセットにどのように一般化するか、異種ソースから高品質なデータセットを収集できるかを問う。
ビッグデータには,作業のモチベーションを向上する上で,非常に異なる側面に沿って,ユニークな課題が存在していることが分かっています。
論文 参考訳(メタデータ) (2024-05-18T22:13:55Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - RLBoost: Boosting Supervised Models using Deep Reinforcement Learning [0.0]
RLBoostは、深層強化学習戦略を用いて、特定のデータセットを評価し、新しいデータの品質を推定できるモデルを得るアルゴリズムである。
論文の結果から, このモデルでは, LOO, DataShapley, DVRLなどの最先端アルゴリズムよりも, より優れた, より安定した結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-23T14:38:33Z) - A Data-centric Framework for Improving Domain-specific Machine Reading
Comprehension Datasets [5.673449249014538]
低品質のデータは、高スループットアプリケーションで下流の問題を引き起こす可能性がある。
データ中心のアプローチでは、データセットの品質向上とモデルパフォーマンスの向上が重視される。
論文 参考訳(メタデータ) (2023-04-02T08:26:38Z) - Learning towards Selective Data Augmentation for Dialogue Generation [52.540330534137794]
すべての事例が増補作業に有益である訳ではなく、増補に適した事例は以下の2つの属性に従うべきであると我々は主張する。
応答生成タスクに対してSDA(Selective Data Augmentation framework)を提案する。
論文 参考訳(メタデータ) (2023-03-17T01:26:39Z) - A Data-Centric Approach for Training Deep Neural Networks with Less Data [1.9014535120129343]
本稿では,データ中心AI(Data-Centric AI)コンペへの優勝申請を要約する。
小さなデータセットでトレーニング中に発生する課題について論じる。
本稿では,新しいデータポイントを合成するためのGANベースのソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-07T16:41:52Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。