論文の概要: AutoDC: Automated data-centric processing
- arxiv url: http://arxiv.org/abs/2111.12548v1
- Date: Tue, 23 Nov 2021 00:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-26 02:55:54.361387
- Title: AutoDC: Automated data-centric processing
- Title(参考訳): autodc: 自動データ中心処理
- Authors: Zac Yung-Chun Liu, Shoumik Roychowdhury, Scott Tarlow, Akash Nair,
Shweta Badhe, Tejas Shah
- Abstract要約: データセット改善プロセスの高速化を目的として,自動データ中心ツール(AutoDC)を開発した。
AutoDCは、データ改善タスクの約80%のマニュアル時間を削減すると同時に、固定されたMLコードでモデルの精度を10~15%向上させると見積もられている。
- 参考スコア(独自算出の注目度): 0.2936007114555107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AutoML (automated machine learning) has been extensively developed in the
past few years for the model-centric approach. As for the data-centric
approach, the processes to improve the dataset, such as fixing incorrect
labels, adding examples that represent edge cases, and applying data
augmentation, are still very artisanal and expensive. Here we develop an
automated data-centric tool (AutoDC), similar to the purpose of AutoML, aims to
speed up the dataset improvement processes. In our preliminary tests on 3 open
source image classification datasets, AutoDC is estimated to reduce roughly 80%
of the manual time for data improvement tasks, at the same time, improve the
model accuracy by 10-15% with the fixed ML code.
- Abstract(参考訳): AutoML(Automated Machine Learning)は、モデル中心のアプローチのために、ここ数年で広く開発されている。
データ中心のアプローチでは、不正なラベルの修正、エッジケースを表す例の追加、データ拡張の適用など、データセットを改善するプロセスは、依然として非常に技術的かつ高価です。
ここでは,automlの目的と類似した,データセット改善プロセスの高速化を目的とした自動データセントリックツール(autodc)を開発した。
3つのオープンソース画像分類データセットの予備試験では、AutoDCはデータ改善タスクの作業時間の約80%を削減できると同時に、固定MLコードによるモデルの精度を10~15%向上させると見積もられている。
関連論文リスト
- AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Automated data processing and feature engineering for deep learning and big data applications: a survey [0.0]
現代の人工知能(AI)のアプローチは、データから直接学習するアルゴリズムを設計することを目的としている。
従来のディープラーニングパイプラインのすべてのデータ処理タスクが自動化されたわけではない。
論文 参考訳(メタデータ) (2024-03-18T01:07:48Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - AutoCure: Automated Tabular Data Curation Technique for ML Pipelines [0.0]
本稿では,新鮮で構成のないデータキュレーションパイプラインであるAutoCureを紹介する。
従来のデータキュレーション方法とは異なり、AutoCureはクリーンなデータ率の密度を合成的に強化する。
実際にAutoCureは、オープンソースのツールと統合して、機械学習の民主化を促進することができる。
論文 参考訳(メタデータ) (2023-04-26T15:51:47Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - AutoFlow: Learning a Better Training Set for Optical Flow [62.40293188964933]
AutoFlowは、光学フローのトレーニングデータをレンダリングする手法である。
AutoFlowはPWC-NetとRAFTの両方の事前トレーニングにおいて最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-04-29T17:55:23Z) - AutoDO: Robust AutoAugment for Biased Data with Label Noise via Scalable
Probabilistic Implicit Differentiation [3.118384520557952]
AutoAugmentはディープラーニングモデルに対する自動拡張手法への関心を呼び起こした。
バイアスデータやノイズデータに適用した場合,これらの手法は堅牢ではないことを示す。
AutoAugmentを汎用的な自動データセット最適化(AutoDO)タスクとして再構成します。
従来の手法と比較して,ラベルノイズのあるバイアス付きデータセットは最大9.3%改善した。
論文 参考訳(メタデータ) (2021-03-10T04:05:33Z) - Adaptive Weighting Scheme for Automatic Time-Series Data Augmentation [79.47771259100674]
データ拡張のための2つのサンプル適応自動重み付けスキームを提案する。
提案手法を大規模でノイズの多い財務データセットとUCRアーカイブからの時系列データセット上で検証する。
金融データセットでは、取引戦略と組み合わせた手法が50 $%$以上の年間収益の改善につながることを示し、時系列データでは、データセットの半分以上で最新モデルを上回るパフォーマンスを発揮し、他のものと同様の精度を達成しています。
論文 参考訳(メタデータ) (2021-02-16T17:50:51Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z) - Adaptation Strategies for Automated Machine Learning on Evolving Data [7.843067454030999]
本研究は,概念ドリフトなどのデータストリーム課題がAutoML手法の性能に及ぼす影響を理解することを目的とする。
本稿では,6つの概念ドリフト適応戦略を提案し,それらの有効性を異なるAutoMLアプローチで評価する。
論文 参考訳(メタデータ) (2020-06-09T14:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。