論文の概要: Effective training-time stacking for ensembling of deep neural networks
- arxiv url: http://arxiv.org/abs/2206.13491v1
- Date: Mon, 27 Jun 2022 17:52:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 14:15:02.748456
- Title: Effective training-time stacking for ensembling of deep neural networks
- Title(参考訳): ディープニューラルネットワークのセンシングのための効果的なトレーニングタイムスタッキング
- Authors: Polina Proscura and Alexey Zaytsev
- Abstract要約: スナップショットアンサンブルは、単一のトレーニングパスに沿ってアンサンブル内のモデルを収集する。
トレーニングパスに沿ってアンサンブルメンバーを選択して重み付けすることでスナップショットアンサンブルを改善する。
標準の積み重ねメソッドが行う検証サンプルエラーを考慮せずに、トレーニング時間の確率に依存する。
- 参考スコア(独自算出の注目度): 1.2667973028134798
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Ensembling is a popular and effective method for improving machine learning
(ML) models. It proves its value not only in classical ML but also for deep
learning. Ensembles enhance the quality and trustworthiness of ML solutions,
and allow uncertainty estimation. However, they come at a price: training
ensembles of deep learning models eat a huge amount of computational resources.
A snapshot ensembling collects models in the ensemble along a single training
path. As it runs training only one time, the computational time is similar to
the training of one model. However, the quality of models along the training
path is different: typically, later models are better if no overfitting occurs.
So, the models are of varying utility.
Our method improves snapshot ensembling by selecting and weighting ensemble
members along the training path. It relies on training-time likelihoods without
looking at validation sample errors that standard stacking methods do.
Experimental evidence for Fashion MNIST, CIFAR-10, and CIFAR-100 datasets
demonstrates the superior quality of the proposed weighted ensembles c.t.
vanilla ensembling of deep learning models.
- Abstract(参考訳): 組み立ては機械学習(ML)モデルを改善するために人気があり効果的な方法である。
古典的なmlだけでなく、ディープラーニングでもその価値が証明される。
アンサンブルはMLソリューションの品質と信頼性を高め、不確実性評価を可能にする。
ディープラーニングモデルのトレーニングアンサンブルは、膨大な量の計算リソースを消費します。
スナップショットセンシングは、1つのトレーニングパスに沿ってアンサンブルでモデルを集めます。
1回だけトレーニングを行うため、計算時間は1つのモデルのトレーニングと類似している。
しかし、トレーニングパスに沿ったモデルの質は異なる。通常、後続のモデルは過度に適合しない方がよい。
そのため、モデルは多種多様である。
トレーニングパスに沿ってアンサンブルメンバーを選択して重み付けすることでスナップショットアンサンブルを改善する。
標準の積み重ねメソッドが行う検証サンプルエラーを見ることなく、トレーニング時間の確率に依存する。
Fashion MNIST、CIFAR-10、CIFAR-100データセットの実験的証拠は、提案された重み付けアンサンブルのより優れた品質を示す。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - A Simple Baseline that Questions the Use of Pretrained-Models in
Continual Learning [30.023047201419825]
いくつかの手法は、事前訓練された表現に基づいて連続学習機構を設計し、継続学習のトレーニング中に最小限のアップデートやバックボーンモデルの更新を許可しない。
我々は、事前訓練された特徴抽出器自体が、Split-CIFAR100およびCoRe 50ベンチマーク上での競争力や継続学習性能を達成するのに十分な強度を持つと論じる。
このベースラインは10-Split-CIFAR-100で88.53%を達成した。
論文 参考訳(メタデータ) (2022-10-10T04:19:53Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Ensembling Off-the-shelf Models for GAN Training [55.34705213104182]
事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。
本研究では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を検証し,効率的な選択機構を提案する。
本手法は, 限られたデータと大規模設定の両方において, GAN トレーニングを改善することができる。
論文 参考訳(メタデータ) (2021-12-16T18:59:50Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z) - Few-Shot Lifelong Learning [35.05196800623617]
Few-Shot Lifelong Learningにより、深層学習モデルが短距離/連続学習を実行できます。
提案手法では,モデルからごく少数のパラメータを選択して,モデル全体をトレーニングする代わりに,新しいクラスのセットをトレーニングする。
提案手法は, miniImageNet, CIFAR-100, CUB-200データセットにおいて, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-01T13:26:57Z) - A Practical Incremental Method to Train Deep CTR Models [37.54660958085938]
本稿では,3つの分離モジュールからなる深部CTRモデルを訓練するための実用的なインクリメンタル手法を提案する。
提案手法は従来のバッチモード学習と同等の性能を達成でき,訓練効率も向上する。
論文 参考訳(メタデータ) (2020-09-04T12:35:42Z) - Auto-Ensemble: An Adaptive Learning Rate Scheduling based Deep Learning
Model Ensembling [11.324407834445422]
本稿では,ディープラーニングモデルのチェックポイントを収集し,それらを自動的にアンサンブルする自動アンサンブル(AE)を提案する。
この手法の利点は、一度のトレーニングで学習率をスケジューリングすることで、モデルを様々な局所最適化に収束させることである。
論文 参考訳(メタデータ) (2020-03-25T08:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。