Fugu-MT 論文翻訳(概要): BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning

論文の概要: BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning

arxiv url: http://arxiv.org/abs/2002.06715v2
Date: Thu, 20 Feb 2020 03:38:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-31 12:00:44.715231
Title: BatchEnsemble: An Alternative Approach to Efficient Ensemble and Lifelong Learning
Title（参考訳）: BatchEnsemble: 効率的なアンサンブルと生涯学習のための代替アプローチ
Authors: Yeming Wen, Dustin Tran, Jimmy Ba
Abstract要約: BatchEnsembleは、一般的なアンサンブルよりも計算コストとメモリコストが大幅に低いアンサンブル法である。 BatchEnsembleは、典型的なアンサンブルとして、競争の正確さと不確実性をもたらすことを示す。また、生涯学習にBatchEnsembleを適用し、Split-CIFAR-100では、BatchEnsembleはプログレッシブニューラルネットワークと同等のパフォーマンスを得る。
参考スコア（独自算出の注目度）: 46.768185367275564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensembles, where multiple neural networks are trained individually and their predictions are averaged, have been shown to be widely successful for improving both the accuracy and predictive uncertainty of single neural networks. However, an ensemble's cost for both training and testing increases linearly with the number of networks, which quickly becomes untenable. In this paper, we propose BatchEnsemble, an ensemble method whose computational and memory costs are significantly lower than typical ensembles. BatchEnsemble achieves this by defining each weight matrix to be the Hadamard product of a shared weight among all ensemble members and a rank-one matrix per member. Unlike ensembles, BatchEnsemble is not only parallelizable across devices, where one device trains one member, but also parallelizable within a device, where multiple ensemble members are updated simultaneously for a given mini-batch. Across CIFAR-10, CIFAR-100, WMT14 EN-DE/EN-FR translation, and out-of-distribution tasks, BatchEnsemble yields competitive accuracy and uncertainties as typical ensembles; the speedup at test time is 3X and memory reduction is 3X at an ensemble of size 4. We also apply BatchEnsemble to lifelong learning, where on Split-CIFAR-100, BatchEnsemble yields comparable performance to progressive neural networks while having a much lower computational and memory costs. We further show that BatchEnsemble can easily scale up to lifelong learning on Split-ImageNet which involves 100 sequential learning tasks.
Abstract（参考訳）: 複数のニューラルネットワークを個別に訓練し、その予測を平均化するアンサンブルは、単一ニューラルネットワークの精度と予測の不確実性の両方を改善するために広く成功している。しかし、トレーニングとテストの両面でのアンサンブルのコストは、ネットワークの数とともに直線的に増加し、急速に減少する。本稿では,一般的なアンサンブルよりも計算コストとメモリコストが大幅に低いアンサンブル手法であるBatchEnsembleを提案する。 BatchEnsemble は、各重み行列をすべてのアンサンブル部材とランク1の行列の間の共有重みのアダマール積と定義することでこれを達成している。アンサンブルとは異なり、BatchEnsembleはデバイス間で並列化可能であり、1つのデバイスが1つのメンバを訓練するだけでなく、デバイス内で並列化可能である。 CIFAR-10、CIFAR-100、WMT14 EN-DE/EN-FR翻訳、およびアウト・オブ・ディストリビューションタスクを含むBatchEnsembleは、典型的なアンサンブルとして競合精度と不確実性を出力する。また、BatchEnsembleを生涯学習に適用し、Split-CIFAR-100では、BatchEnsembleは、計算とメモリのコストをはるかに低くしながら、プログレッシブニューラルネットワークに匹敵するパフォーマンスを得る。さらに,BatchEnsembleは,100の逐次学習タスクを含むSplit-ImageNet上で,生涯学習まで容易にスケールアップ可能であることを示す。

関連論文リスト

Noisy Deep Ensemble: Accelerating Deep Ensemble Learning via Noise Injection [0.0]
ニューラルネットワークアンサンブルは、一般化能力を高めるためのシンプルだが効果的なアプローチである。ニューラルネットワークのアンサンブルに必要なトレーニング時間を大幅に削減する,新しいtextbfNoisy Deep Ensemble' 手法を提案する。
論文参考訳（メタデータ） (2025-04-08T04:36:39Z)
ANDHRA Bandersnatch: Training Neural Networks to Predict Parallel Realities [0.0]
この研究は、同じ入力信号を各レイヤで並列ブランチに分割する、新しいニューラルネットワークアーキテクチャを導入している。分岐されたレイヤはマージされず、別々のネットワークパスを形成し、出力予測のために複数のネットワークヘッドが生成される。
論文参考訳（メタデータ） (2024-11-28T15:36:34Z)
Network Fission Ensembles for Low-Cost Self-Ensembles [20.103367702014474]
NFE(Network Fission Ensembles)と呼ばれる低コストのアンサンブル学習と推論を提案する。まず、トレーニングの負担を軽減するために、いくつかの重みを取り除きます。次に、残りの重みを複数の集合に分けて、各集合を用いて複数の補助経路を作成し、複数の集合を構成する。
論文参考訳（メタデータ） (2024-08-05T08:23:59Z)
LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文参考訳（メタデータ） (2024-05-23T11:10:32Z)
SAE: Single Architecture Ensemble Neural Networks [7.011763596804071]
異なるニューラルネットワーク(NN)のアンサンブルは、タスク間の単一NNよりも精度と信頼性のキャリブレーションが優れている。近年の手法では,早期出口の追加やマルチ入力マルチ出力手法によるアンサンブルを単一ネットワーク内で生成している。我々の新しいSingle Architecture Ensembleフレームワークは、早期出口とマルチ入力マルチ出力構成による自動および共同検索を可能にする。
論文参考訳（メタデータ） (2024-02-09T17:55:01Z)
On the Soft-Subnetwork for Few-shot Class Incremental Learning [67.0373924836107]
本稿では,emphSoft-SubNetworks (SoftNet) と呼ばれる数発のクラスインクリメンタルラーニング(FSCIL)手法を提案する。私たちの目的はセッションの連続を漸進的に学習することであり、各セッションは、以前に学習したセッションの知識を保持しながら、クラス毎にいくつかのトレーニングインスタンスのみを含む。我々は、ベンチマークデータセットよりも最先端のベースラインのパフォーマンスを超越して、SoftNetが数発のインクリメンタル学習問題に効果的に取り組むことを示す、総合的な実証検証を提供する。
論文参考訳（メタデータ） (2022-09-15T04:54:02Z)
Prune and Tune Ensembles: Low-Cost Ensemble Learning With Sparse Independent Subnetworks [0.0]
我々は、スクラッチから複数のモデルを訓練することなく、多様なニューラルネットワークのアンサンブルを生成する、高速で低コストな方法を紹介した。親のクローンを作成し、各子のパラメータを劇的に刈り上げ、ユニークな多様なトポロジを持つメンバのアンサンブルを作成します。この多様性により、"Prune and Tune"アンサンブルは、トレーニングコストのごく一部で従来のアンサンブルと競合する結果を達成することができる。
論文参考訳（メタデータ） (2022-02-23T20:53:54Z)
SAE: Sequential Anchored Ensembles [7.888755225607877]
本稿では,アンサンブルの軽量な代替品であるSequential Anchored Ensembles(SAE)を紹介する。アンサンブルの各メンバーをゼロから訓練する代わりに、メンバーは高い自己相関でサンプリングされた損失に基づいて順次訓練される。 SAEは特定の計算予算に対してアンサンブルを性能的に上回り、他のベンチマークでは同等のパフォーマンスを示した。
論文参考訳（メタデータ） (2021-12-30T12:47:27Z)
FreeTickets: Accurate, Robust and Efficient Deep Ensemble by Training with Dynamic Sparsity [74.58777701536668]
我々は、疎い畳み込みニューラルネットワークの性能を、ネットワークの高密度な部分よりも大きなマージンで向上させることができるFreeTicketsの概念を紹介した。本研究では, ダイナミックな間隔を持つ2つの新しい効率的なアンサンブル手法を提案し, スパーストレーニング過程において, 多数の多様かつ正確なチケットを「無償」で撮影する。
論文参考訳（メタデータ） (2021-06-28T10:48:20Z)
Learning by Minimizing the Sum of Ranked Range [58.24935359348289]
本稿では,学習目標を定式化するための一般的なアプローチとして,ランキング範囲(SoRR)の和を紹介した。ランク付き範囲は、実数の集合のソートされた値の連続的なシーケンスである。我々は,SoRRフレームワークの最小化のための機械学習における2つの応用,すなわち,バイナリ分類のためのAoRR集約損失とマルチラベル/マルチクラス分類のためのTKML個人損失について検討する。
論文参考訳（メタデータ） (2020-10-05T01:58:32Z)
Fitting the Search Space of Weight-sharing NAS with Graph Convolutional Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文参考訳（メタデータ） (2020-04-17T19:12:39Z)
Stochastic Weight Averaging in Parallel: Large-Batch Training that Generalizes Well [7.262048441360133]
DNNトレーニングの高速化を目的として,SWAP(Weight Averaging in Parallel)を提案する。提案アルゴリズムは, 高速に近似解を計算し, 並列に計算された複数のモデルの重みを平均化し, 精度を向上する。結果として得られるモデルは、小さなミニバッチで訓練されたモデルと同等に一般化されるが、かなり短い時間で生産される。
論文参考訳（メタデータ） (2020-01-07T23:13:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。