論文の概要: Improving generalisation of AutoML systems with dynamic fitness
evaluations
- arxiv url: http://arxiv.org/abs/2001.08842v1
- Date: Thu, 23 Jan 2020 22:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 09:53:31.204041
- Title: Improving generalisation of AutoML systems with dynamic fitness
evaluations
- Title(参考訳): 動的フィットネス評価によるAutoMLシステムの一般化改善
- Authors: Benjamin Patrick Evans, Bing Xue, Mengjie Zhang
- Abstract要約: パイプラインをトレーニングデータに過度に適合させると、目に見えないデータのパフォーマンスが低下する、というのが一般的な問題です。
本研究は,テキストテクスチャフォールドクロスバリデーションを近似した動的適合度評価を導入することで,この問題を解消することを目的とする。
その結果,現在最先端のベースライン法よりも適合度関数が大幅に向上していることが示唆された。
- 参考スコア(独自算出の注目度): 4.4181317696554325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common problem machine learning developers are faced with is overfitting,
that is, fitting a pipeline too closely to the training data that the
performance degrades for unseen data. Automated machine learning aims to free
(or at least ease) the developer from the burden of pipeline creation, but this
overfitting problem can persist. In fact, this can become more of a problem as
we look to iteratively optimise the performance of an internal cross-validation
(most often \textit{k}-fold). While this internal cross-validation hopes to
reduce this overfitting, we show we can still risk overfitting to the
particular folds used. In this work, we aim to remedy this problem by
introducing dynamic fitness evaluations which approximate repeated
\textit{k}-fold cross-validation, at little extra cost over single
\textit{k}-fold, and far lower cost than typical repeated \textit{k}-fold. The
results show that when time equated, the proposed fitness function results in
significant improvement over the current state-of-the-art baseline method which
uses an internal single \textit{k}-fold. Furthermore, the proposed extension is
very simple to implement on top of existing evolutionary computation methods,
and can provide essentially a free boost in generalisation/testing performance.
- Abstract(参考訳): マシンラーニング開発者が直面している一般的な問題は、パイプラインを、目に見えないデータに対してパフォーマンスが低下するトレーニングデータにあまりにも密接に適合させることだ。
自動機械学習は、パイプライン作成の負担から開発者を解放(あるいは少なくとも容易)することを目的としているが、この過度な問題は持続する可能性がある。
実際、これは、内部クロスバリデーション(多くの場合、 \textit{k}-fold)のパフォーマンスを反復的に最適化しようとすると、より問題になり得る。
この内部のクロスバリデーションは、この過度な適合を減らそうとしていますが、私たちは、使用する特定の折り畳みに過度に適合するリスクがあることを示します。
本研究では,1 個の \textit{k}-fold に対する余分なコストが少なく,通常の \textit{k}-fold よりもはるかに安価で,反復的 \textit{k}-fold のクロスバリデーションを近似する動的適合性評価を導入することで,この問題を解決しようとする。
その結果、時間と等しくなると、提案したフィットネス関数は、内部の単一 \textit{k}-フォルダを使用する最先端のベースライン法よりも大幅に改善されることがわかった。
さらに、提案した拡張は、既存の進化的計算法上に実装するのが非常に簡単であり、基本的には一般化/テスト性能の無料向上を提供することができる。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Scalable Higher-Order Tensor Product Spline Models [0.0]
本稿では,高階テンソル積スプラインモデルから高階テンソル積を導出する因子分解法を提案する。
本手法では,非線形特徴効果のすべての(高次)相互作用を,相互作用のないモデルに比例した計算コストで組み込むことが可能である。
論文 参考訳(メタデータ) (2024-02-02T01:18:48Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - United We Stand: Using Epoch-wise Agreement of Ensembles to Combat
Overfit [7.627299398469962]
オーバーフィッティングを効果的に克服するディープネットワークのための新しいアンサンブル分類器を提案する。
本手法は, 汎用性能の劣化を伴わずに, オーバーフィッティング段階で得られた有用な知識を組み込むことが可能である。
私たちの方法は実装が容易で、どんなトレーニングスキームやアーキテクチャにも統合できます。
論文 参考訳(メタデータ) (2023-10-17T08:51:44Z) - Split-Boost Neural Networks [1.1549572298362787]
本稿では,スプリットブートと呼ばれるフィードフォワードアーキテクチャの革新的なトレーニング戦略を提案する。
このような新しいアプローチは、最終的に正規化項を明示的にモデル化することを避けることができる。
提案した戦略は、ベンチマーク医療保険設計問題内の実世界の(匿名化された)データセットでテストされる。
論文 参考訳(メタデータ) (2023-09-06T17:08:57Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Overfitting in Bayesian Optimization: an empirical study and
early-stopping solution [41.782410830989136]
早期停止BOへの最初の問題適応性と解釈可能な基準を提案する。
提案手法は, テスト精度をほとんど損なうことなく, 計算時間を実質的に削減できることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:26:23Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - Optimizing generalization on the train set: a novel gradient-based
framework to train parameters and hyperparameters simultaneously [0.0]
一般化は機械学習における中心的な問題である。
本稿では,新たなリスク尺度に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T18:04:36Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。