論文の概要: Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation
- arxiv url: http://arxiv.org/abs/2006.14284v1
- Date: Thu, 25 Jun 2020 09:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:03:06.666450
- Title: Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation
- Title(参考訳): 拡張蒸留による単語データの高速, 高精度, 簡便なモデル
- Authors: Rasool Fakoor, Jonas Mueller, Nick Erickson, Pratik Chaudhari,
Alexander J. Smola
- Abstract要約: 本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
- 参考スコア(独自算出の注目度): 97.42894942391575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated machine learning (AutoML) can produce complex model ensembles by
stacking, bagging, and boosting many individual models like trees, deep
networks, and nearest neighbor estimators. While highly accurate, the resulting
predictors are large, slow, and opaque as compared to their constituents. To
improve the deployment of AutoML on tabular data, we propose FAST-DAD to
distill arbitrarily complex ensemble predictors into individual models like
boosted trees, random forests, and deep networks. At the heart of our approach
is a data augmentation strategy based on Gibbs sampling from a self-attention
pseudolikelihood estimator. Across 30 datasets spanning regression and
binary/multiclass classification tasks, FAST-DAD distillation produces
significantly better individual models than one obtains through standard
training on the original data. Our individual distilled models are over 10x
faster and more accurate than ensemble predictors produced by AutoML tools like
H2O/AutoSklearn.
- Abstract(参考訳): 自動機械学習(AutoML)は、木や深いネットワーク、近くの推定器など、多数の個別モデルを積み重ね、バッジし、強化することで、複雑なモデルアンサンブルを生成することができる。
精度は高いが、結果として得られる予測子は、構成成分と比較して大きく、遅く、不透明である。
表データへのautomlの配置を改善するために,木,ランダム林,深層ネットワークなどの個別モデルに任意に複雑なアンサンブル予測器を蒸留する高速ダッドを提案する。
我々のアプローチの核心は、自己注意型擬似的推定器からのGibbsサンプリングに基づくデータ拡張戦略である。
FAST-DAD蒸留は、回帰と二項/複数分類タスクにまたがる30のデータセットにまたがって、元のデータに対する標準トレーニングによって得られるものよりも、はるかに優れた個別モデルを生成する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
関連論文リスト
- Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How [62.467716468917224]
本稿では,最適事前学習モデルとハイパーパラメータを共同で探索し,微調整する手法を提案する。
本手法は,一連のデータセット上で,事前学習したモデルの性能に関する知識を伝達する。
得られたアプローチによって、新しいデータセットの正確な事前学習モデルを迅速に選択できることを実証的に実証する。
論文 参考訳(メタデータ) (2023-06-06T16:15:26Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - A Deep Neural Networks ensemble workflow from hyperparameter search to
inference leveraging GPU clusters [0.0]
AutoMLは、定性的予測を達成するために、ディープニューラルネットワーク(DNN)のアンサンブルを自動的に構築することを目指している。
我々は,より正確で多様な個別モデルのライブラリを構築し,アンサンブルを構築するための新しいAutoMLを提案する。
高精度なアンサンブルを生成するために,多目的グリードアルゴリズムに基づく新しいアンサンブル選択法を提案する。
論文 参考訳(メタデータ) (2022-08-30T08:04:19Z) - Do We Really Need Deep Learning Models for Time Series Forecasting? [4.2698418800007865]
時系列予測は、幅広い応用があるため、機械学習において重要なタスクである。
ディープラーニングとマトリックスファクタリゼーションモデルは、より競争力のあるパフォーマンスで同じ問題に取り組むために最近提案されている。
本稿では,これらの高度に複雑なディープラーニングモデルが代替手段がないかどうかを問う。
論文 参考訳(メタデータ) (2021-01-06T16:18:04Z) - AgEBO-Tabular: Joint Neural Architecture and Hyperparameter Search with
Autotuned Data-Parallel Training for Tabular Data [11.552769149674544]
大規模データセットに対する高性能な予測モデルの開発は難しい課題である。
最近の自動機械学習(AutoML)は、予測モデル開発を自動化するための有望なアプローチとして現れている。
我々は,老化進化(AgE)とニューラルアーキテクチャ空間を探索する並列NAS法を組み合わせたAgEBO-Tabularを開発した。
論文 参考訳(メタデータ) (2020-10-30T16:28:48Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z) - Ensemble Distillation for Robust Model Fusion in Federated Learning [72.61259487233214]
Federated Learning(FL)は、多くのデバイスが機械学習モデルを協調的にトレーニングする機械学習環境である。
現在のトレーニングスキームのほとんどでは、サーバモデルのパラメータと更新されたパラメータをクライアント側から平均化することで、中央モデルを洗練します。
本研究では,モデル融合のためのアンサンブル蒸留法を提案する。
論文 参考訳(メタデータ) (2020-06-12T14:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。