論文の概要: Data Collection and Quality Challenges in Deep Learning: A Data-Centric
AI Perspective
- arxiv url: http://arxiv.org/abs/2112.06409v1
- Date: Mon, 13 Dec 2021 03:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 05:33:02.578616
- Title: Data Collection and Quality Challenges in Deep Learning: A Data-Centric
AI Perspective
- Title(参考訳): ディープラーニングにおけるデータ収集と品質問題 - データ中心AIの視点から
- Authors: Steven Euijong Whang, Yuji Roh, Hwanjun Song, Jae-Gil Lee
- Abstract要約: データ中心のAIプラクティスが主流になりつつある。
現実世界の多くのデータセットは小さく、汚く、偏りがあり、毒まみれである。
データ品質については、データ検証とデータクリーニング技術について研究する。
- 参考スコア(独自算出の注目度): 16.480530590466472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software 2.0 is a fundamental shift in software engineering where machine
learning becomes the new software, powered by big data and computing
infrastructure. As a result, software engineering needs to be re-thought where
data becomes a first-class citizen on par with code. One striking observation
is that 80-90% of the machine learning process is spent on data preparation.
Without good data, even the best machine learning algorithms cannot perform
well. As a result, data-centric AI practices are now becoming mainstream.
Unfortunately, many datasets in the real world are small, dirty, biased, and
even poisoned. In this survey, we study the research landscape for data
collection and data quality primarily for deep learning applications. Data
collection is important because there is lesser need for feature engineering
for recent deep learning approaches, but instead more need for large amounts of
data. For data quality, we study data validation and data cleaning techniques.
Even if the data cannot be fully cleaned, we can still cope with imperfect data
during model training where using robust model training techniques. In
addition, while bias and fairness have been less studied in traditional data
management research, these issues become essential topics in modern machine
learning applications. We thus study fairness measures and unfairness
mitigation techniques that can be applied before, during, or after model
training. We believe that the data management community is well poised to solve
problems in these directions.
- Abstract(参考訳): Software 2.0は、機械学習がビッグデータとコンピューティングインフラストラクチャを基盤とする新しいソフトウェアになるソフトウェアエンジニアリングの根本的な変化である。
結果として、ソフトウェアエンジニアリングは、データがコードと同等の第一級市民になるよう再検討する必要があります。
注目すべき観察のひとつは、機械学習プロセスの80~90%がデータ準備に費やされていることだ。
優れたデータがなければ、最高の機械学習アルゴリズムでさえうまく機能しない。
その結果、データ中心のaiプラクティスが主流になりつつある。
残念ながら、現実世界の多くのデータセットは小さく、汚れ、偏り、さらには毒まみれだ。
本研究では,主にディープラーニングアプリケーションを対象としたデータ収集とデータ品質の研究環境について検討する。
データ収集は、最近のディープラーニングアプローチでは機能エンジニアリングの必要性が少なく、むしろ大量のデータを必要とするため重要である。
データ品質については、データ検証とデータクリーニング技術について研究する。
たとえデータが完全にクリーニングできないとしても、堅牢なモデルトレーニング技術を使用するモデルトレーニング中に不完全なデータを扱うことができます。
さらに、従来のデータ管理研究ではバイアスや公平性があまり研究されていないが、これらの問題は現代の機械学習アプリケーションにおいて重要なトピックとなっている。
そこで本研究では,モデルトレーニング前後に適用可能な公平度対策と不公平度軽減技術について検討する。
データ管理コミュニティは、これらの方向の問題を解決するのに十分適していると考えています。
関連論文リスト
- Releasing Malevolence from Benevolence: The Menace of Benign Data on Machine Unlearning [28.35038726318893]
大量の実データや合成データに基づいてトレーニングされた機械学習モデルは、様々な領域で優れた予測性能を達成する。
プライバシの懸念に対処するため、モデルから特定のデータサンプルを削除するために、機械学習が提案されている。
本研究では,データ配信情報を少量の良質なデータ集合に抽出するために,Unlearning Usability Attackを導入する。
論文 参考訳(メタデータ) (2024-07-06T15:42:28Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - How to Do Machine Learning with Small Data? -- A Review from an
Industrial Perspective [1.443696537295348]
著者らは、"小さなデータ"の一般的な用語とそのエンジニアリングと産業アプリケーションの役割を解釈することに重点を置いている。
小さなデータはビッグデータと比較して様々な特性で定義され、機械学習形式が導入された。
産業アプリケーションにおける小さなデータによる機械学習の5つの重要な課題を提示する。
論文 参考訳(メタデータ) (2023-11-13T07:39:13Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Don't Waste Data: Transfer Learning to Leverage All Data for
Machine-Learnt Climate Model Emulation [0.0]
我々は、すべての高解像度データを活用するために、転送学習アプローチを使用します。
トレーニングを安定化し、一般化性能を向上し、その結果予測スキルが向上することを示す。
論文 参考訳(メタデータ) (2022-10-08T11:51:12Z) - Data Budgeting for Machine Learning [17.524791147624086]
データ予算問題を研究し,それを2つのサブプロブレムとして定式化する。
本稿では,データ予算問題の解法を提案する。
私たちの経験的評価は、50ドル以下のデータポイントを持つ小さなパイロットスタディデータセットを前提として、データ予算の実行が可能であることを示しています。
論文 参考訳(メタデータ) (2022-10-03T14:53:17Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Data science on industrial data -- Today's challenges in brown field
applications [0.0]
本論文は,ストックマシンの現場での作業における技術の現状と今後の展望について述べる。
この論文の主な焦点はデータ収集であり、ほとんどの人が予想するよりも扱いにくい。
機械学習アプリケーションのデータ品質は、実験室を去ると問題になる。
論文 参考訳(メタデータ) (2020-06-10T10:05:16Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。