論文の概要: Improve SGD Training via Aligning Mini-batches
- arxiv url: http://arxiv.org/abs/2002.09917v2
- Date: Thu, 27 Feb 2020 02:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:19:55.925333
- Title: Improve SGD Training via Aligning Mini-batches
- Title(参考訳): ミニバッチの調整によるSGD訓練の改善
- Authors: Xiangrui Li, Deng Pan, Xin Li, Dongxiao Zhu
- Abstract要約: In-Training Distribution Matching (ITDM) は、ディープニューラルネットワーク(DNN)のトレーニングを改善し、オーバーフィッティングを減らすために提案されている。
具体的には、SGDの各イテレーションにおいて、異なるミニバッチの分布のモーメントを一致させて特徴抽出器を正規化する。
- 参考スコア(独自算出の注目度): 22.58823484394866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) for supervised learning can be viewed as a
pipeline of a feature extractor (i.e. last hidden layer) and a linear
classifier (i.e. output layer) that is trained jointly with stochastic gradient
descent (SGD). In each iteration of SGD, a mini-batch from the training data is
sampled and the true gradient of the loss function is estimated as the noisy
gradient calculated on this mini-batch. From the feature learning perspective,
the feature extractor should be updated to learn meaningful features with
respect to the entire data, and reduce the accommodation to noise in the
mini-batch. With this motivation, we propose In-Training Distribution Matching
(ITDM) to improve DNN training and reduce overfitting. Specifically, along with
the loss function, ITDM regularizes the feature extractor by matching the
moments of distributions of different mini-batches in each iteration of SGD,
which is fulfilled by minimizing the maximum mean discrepancy. As such, ITDM
does not assume any explicit parametric form of data distribution in the latent
feature space. Extensive experiments are conducted to demonstrate the
effectiveness of our proposed strategy.
- Abstract(参考訳): 教師付き学習のためのディープニューラルネットワーク(DNN)は、特徴抽出器(すなわち最後の隠蔽層)と線形分類器(すなわち出力層)のパイプラインとして見ることができ、確率勾配降下(SGD)と共に訓練される。
sgdの各イテレーションでは、訓練データからのミニバッチをサンプリングし、このミニバッチで算出されたノイズ勾配として損失関数の真の勾配を推定する。
特徴学習の観点からは、特徴抽出器を更新して、データ全体について有意義な特徴を学習し、ミニバッチにおけるノイズへの調節を低減する必要がある。
このモチベーションにより、DNNトレーニングを改善し、オーバーフィッティングを減らすために、ITDM(In-Training Distribution Matching)を提案する。
具体的には、損失関数とともに、SGDの各イテレーションで異なるミニバッチの分布のモーメントを一致させて特徴抽出器を正規化し、最大平均差を最小化する。
したがって、ITDMは潜在機能空間におけるデータ分布の明示的なパラメトリック形式を前提としない。
提案手法の有効性を示すため,広範な実験を行った。
関連論文リスト
- Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Grad Queue : A probabilistic framework to reinforce sparse gradients [0.0]
ランダムなデータポイントのバッチ内でスパースコンポーネントを補強するロバストなメカニズムを提案する。
各クラスタから冗長な情報を抽出する強力な直感的な基準は、システムのバックボーンである。
CIFAR10,MNIST,Reuters Newsのカテゴリデータセットでは,ミニバッチよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-04-25T16:07:01Z) - Towards the Uncharted: Density-Descending Feature Perturbation for Semi-supervised Semantic Segmentation [51.66997548477913]
本稿では,DDFP(Dedentity-Descending Feature Perturbation)という特徴レベルの一貫性学習フレームワークを提案する。
半教師付き学習における低密度分離仮定にインスパイアされた私たちの重要な洞察は、特徴密度はセグメンテーション分類器が探索する最も有望な方向の光を放つことができるということである。
提案したDFFPは、機能レベルの摂動に関する他の設計よりも優れており、Pascal VOCとCityscapesのデータセット上でのアートパフォーマンスの状態を示している。
論文 参考訳(メタデータ) (2024-03-11T06:59:05Z) - Training trajectories, mini-batch losses and the curious role of the
learning rate [13.848916053916618]
検証された勾配勾配勾配は、ディープラーニングのほぼすべての応用において、基本的な役割を担っていることを示す。
本稿では,ミニバッチの勾配と全バッチの関係を解析する簡単なモデルと幾何学的解釈を提案する。
特に、非常に低い損失値は、十分な学習率で1段階の降下に到達することができる。
論文 参考訳(メタデータ) (2023-01-05T21:58:46Z) - Learning Compact Features via In-Training Representation Alignment [19.273120635948363]
各エポックでは、トレーニングセットからサンプリングしたミニバッチを用いて損失関数の真の勾配を推定する。
In-Training Representation Alignment (ITRA) を提案する。
また,特徴表現学習における一致損失の望ましい影響を厳密に分析する。
論文 参考訳(メタデータ) (2022-11-23T22:23:22Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。