論文の概要: Fix your Models by Fixing your Datasets
- arxiv url: http://arxiv.org/abs/2112.07844v1
- Date: Wed, 15 Dec 2021 02:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 02:12:52.261165
- Title: Fix your Models by Fixing your Datasets
- Title(参考訳): データセットを修正してモデルを修正する
- Authors: Atindriyo Sanyal, Vikram Chatterji, Nidhi Vyas, Ben Epstein, Nikita
Demir, Anthony Corletti
- Abstract要約: 現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。
2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
- 参考スコア(独自算出の注目度): 0.6058427379240697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quality of underlying training data is very crucial for building
performant machine learning models with wider generalizabilty. However, current
machine learning (ML) tools lack streamlined processes for improving the data
quality. So, getting data quality insights and iteratively pruning the errors
to obtain a dataset which is most representative of downstream use cases is
still an ad-hoc manual process. Our work addresses this data tooling gap,
required to build improved ML workflows purely through data-centric techniques.
More specifically, we introduce a systematic framework for (1) finding noisy or
mislabelled samples in the dataset and, (2) identifying the most informative
samples, which when included in training would provide maximal model
performance lift. We demonstrate the efficacy of our framework on public as
well as private enterprise datasets of two Fortune 500 companies, and are
confident this work will form the basis for ML teams to perform more
intelligent data discovery and pruning.
- Abstract(参考訳): 基礎となるトレーニングデータの品質は、より一般化した高性能な機械学習モデルを構築する上で非常に重要です。
しかし、現在の機械学習(ML)ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
したがって、データ品質の洞察を得て、エラーを反復的に抽出して、ダウンストリームのユースケースを最も代表するデータセットを取得することは、いまだにアドホックな手作業です。
このデータツーリングのギャップに対処するためには、データ中心のテクニックによって純粋に改善されたMLワークフローを構築する必要があります。
より具体的には,(1)データセットにノイズや誤りのあるサンプルを見つけるための体系的枠組みを導入し,(2)トレーニングに含まれる場合,最大モデルの性能向上をもたらす最も有益なサンプルを特定する。
当社のフレームワークが2つのFortune 500企業のプライベートエンタープライズデータセットとパブリックで有効であることを示し、この作業が、よりインテリジェントなデータディスカバリとプルーニングを行うためのMLチームの基盤となると確信しています。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs [11.24476329991465]
外部ツール使用のための大規模言語モデル(LLM)のトレーニングは、急速に拡大する分野である。
体系的なデータ品質チェックの欠如は、モデルを適切にトレーニングし、テストするための複雑さを引き起こす。
外部ツールを用いたLCMのトレーニングにおいて,データの信頼性を評価するための2つの手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T17:20:02Z) - Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。
我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。
ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文 参考訳(メタデータ) (2024-08-21T04:45:12Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Optimizing the AI Development Process by Providing the Best Support
Environment [0.756282840161499]
機械学習の主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。
このフレームワークは、ディープラーニングの進歩を使ってデータ拡張を実行するために、python言語を使用して構築された。
論文 参考訳(メタデータ) (2023-04-29T00:44:50Z) - Evaluating and Crafting Datasets Effective for Deep Learning With Data
Maps [0.0]
大規模なデータセットのトレーニングには、過剰なシステムリソースと実現不可能な時間を要することが多い。
教師付き学習では、大規模なデータセットはサンプルを手動でラベル付けするのにより多くの時間を必要とする。
そこで本研究では,初期のトレーニングセッションの後に,分散モデルの精度に匹敵する精度で,より小さなデータセットをキュレートする手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T03:30:18Z) - Improving the Performance of Fine-Grain Image Classifiers via Generative
Data Augmentation [0.5161531917413706]
我々は、ロバスト生成アドリアルネットワーク(DAPPER GAN)の熟練した事前学習からデータ拡張を開発する。
DAPPER GANは、トレーニングイメージの新しいビューを自動的に生成するML分析支援ツールである。
本手法をStanford Carsデータセット上で実験的に評価し,車体形状とモデル分類精度の向上を実証した。
論文 参考訳(メタデータ) (2020-08-12T15:29:11Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。