論文の概要: Augment & Valuate : A Data Enhancement Pipeline for Data-Centric AI
- arxiv url: http://arxiv.org/abs/2112.03837v1
- Date: Tue, 7 Dec 2021 17:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 15:27:34.896368
- Title: Augment & Valuate : A Data Enhancement Pipeline for Data-Centric AI
- Title(参考訳): Augment & Valuate : データ中心AIのためのデータ拡張パイプライン
- Authors: Youngjune Lee, Oh Joon Kwon, Haeju Lee, Joonyoung Kim, Kangwook Lee,
Kee-Eung Kim
- Abstract要約: ブラックボックスモデルを用いたデータセットの基本分布特性と意味特性に対処するデータ中心型手法を提案する。
データ中心AIコンペティションにおいて、提供されたデータセットのみで84.711%のテスト精度(6位、最もイノベーティブなメンション)を達成する。
- 参考スコア(独自算出の注目度): 19.358073575300004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data scarcity and noise are important issues in industrial applications of
machine learning. However, it is often challenging to devise a scalable and
generalized approach to address the fundamental distributional and semantic
properties of dataset with black box models. For this reason, data-centric
approaches are crucial for the automation of machine learning operation
pipeline. In order to serve as the basis for this automation, we suggest a
domain-agnostic pipeline for refining the quality of data in image
classification problems. This pipeline contains data valuation, cleansing, and
augmentation. With an appropriate combination of these methods, we could
achieve 84.711% test accuracy (ranked #6, Honorable Mention in the Most
Innovative) in the Data-Centric AI competition only with the provided dataset.
- Abstract(参考訳): データ不足とノイズは、機械学習の産業応用において重要な問題である。
しかし、ブラックボックスモデルによるデータセットの基本的な分布特性と意味特性に対処するために、スケーラブルで一般化されたアプローチを考案することはしばしば困難である。
このため、データ中心のアプローチは、機械学習操作パイプラインの自動化に不可欠である。
この自動化の基盤となるために、画像分類問題におけるデータ品質を改善するためのドメインに依存しないパイプラインを提案する。
このパイプラインには、データバリュエーション、クリーニング、拡張が含まれている。
これらの手法を適切に組み合わせることで、提供されたデータセットのみとのData-Centric AIコンペティションにおいて、84.711%のテスト精度(6位、最もイノベーティブなメンション)を達成することができる。
関連論文リスト
- Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。
我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。
ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文 参考訳(メタデータ) (2024-08-21T04:45:12Z) - Automated data processing and feature engineering for deep learning and big data applications: a survey [0.0]
現代の人工知能(AI)のアプローチは、データから直接学習するアルゴリズムを設計することを目的としている。
従来のディープラーニングパイプラインのすべてのデータ処理タスクが自動化されたわけではない。
論文 参考訳(メタデータ) (2024-03-18T01:07:48Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Deep Learning based pipeline for anomaly detection and quality
enhancement in industrial binder jetting processes [68.8204255655161]
異常検出は、通常の値空間とは異なる異常状態、インスタンス、あるいはデータポイントを検出する方法を記述する。
本稿では,産業生産における人工知能へのデータ中心のアプローチに寄与する。
論文 参考訳(メタデータ) (2022-09-21T08:14:34Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - AutoDO: Robust AutoAugment for Biased Data with Label Noise via Scalable
Probabilistic Implicit Differentiation [3.118384520557952]
AutoAugmentはディープラーニングモデルに対する自動拡張手法への関心を呼び起こした。
バイアスデータやノイズデータに適用した場合,これらの手法は堅牢ではないことを示す。
AutoAugmentを汎用的な自動データセット最適化(AutoDO)タスクとして再構成します。
従来の手法と比較して,ラベルノイズのあるバイアス付きデータセットは最大9.3%改善した。
論文 参考訳(メタデータ) (2021-03-10T04:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。