論文の概要: A Negative Result on Gradient Matching for Selective Backprop
- arxiv url: http://arxiv.org/abs/2312.05021v1
- Date: Fri, 8 Dec 2023 13:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 15:14:23.600913
- Title: A Negative Result on Gradient Matching for Selective Backprop
- Title(参考訳): 選択的バックプロップの勾配整合に関する負の結果
- Authors: Lukas Balles, Cedric Archambeau, Giovanni Zappella
- Abstract要約: ディープニューラルネットワークのトレーニングは、膨大な計算負荷になる。
トレーニングプロセスをスピードアップする1つのアプローチはSelective Backpropである。
我々は、ミニバッチ全体の平均勾配に最もよく一致する(重み付けされた)サブセットを選択することで、このアプローチを構築します。
損失ベースと勾配マッチング戦略の両方が、ランダムなベースラインを一貫して上回りません。
- 参考スコア(独自算出の注目度): 8.463693396893731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With increasing scale in model and dataset size, the training of deep neural
networks becomes a massive computational burden. One approach to speed up the
training process is Selective Backprop. For this approach, we perform a forward
pass to obtain a loss value for each data point in a minibatch. The backward
pass is then restricted to a subset of that minibatch, prioritizing high-loss
examples. We build on this approach, but seek to improve the subset selection
mechanism by choosing the (weighted) subset which best matches the mean
gradient over the entire minibatch. We use the gradients w.r.t. the model's
last layer as a cheap proxy, resulting in virtually no overhead in addition to
the forward pass. At the same time, for our experiments we add a simple random
selection baseline which has been absent from prior work. Surprisingly, we find
that both the loss-based as well as the gradient-matching strategy fail to
consistently outperform the random baseline.
- Abstract(参考訳): モデルとデータセットのサイズが拡大するにつれて、ディープニューラルネットワークのトレーニングは大きな計算負荷になる。
トレーニングプロセスをスピードアップする1つのアプローチはSelective Backpropである。
このアプローチでは,ミニバッチにおける各データポイントの損失値を得るためにフォワードパスを実行する。
後方パスはそのミニバッチのサブセットに制限され、高損失の例を優先する。
このアプローチに基づいて構築するが、ミニバッチ全体の平均勾配に最もよく一致する(重み付けされた)サブセットを選択することにより、サブセット選択機構の改善を図る。
我々は、モデルの最後の層である勾配を安価なプロキシとして使用し、フォワードパスに加えて事実上オーバーヘッドがなくなる。
同時に,本実験では,先行研究に欠落している単純なランダム選択ベースラインを追加する。
意外なことに、損失ベースと勾配マッチング戦略の両方が、ランダムなベースラインを一貫して上回りません。
関連論文リスト
- Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - SIMPLE: A Gradient Estimator for $k$-Subset Sampling [42.38652558807518]
この作業では、フォワードパスの離散$k$-subsetサンプリングに戻ります。
勾配推定器 SIMPLE は, 最先端推定器と比較して, バイアスやばらつきが低いことを示す。
実験結果から,線形回帰を説明・スパースする学習性能が向上した。
論文 参考訳(メタデータ) (2022-10-04T22:33:16Z) - MBGDT:Robust Mini-Batch Gradient Descent [4.141960931064351]
本研究では,ベイズ回帰や勾配降下といった基礎学習者による新たな手法を導入し,モデルの脆弱性を解消する。
ミニバッチ勾配降下はより堅牢な収束を可能にするため、ミニバッチ勾配降下法(Mini-Batch Gradient Descent with Trimming (MBGDT))を提案する。
提案手法は,提案手法を設計データセットに適用した場合に,最先端性能を示し,複数のベースラインよりも堅牢性が高い。
論文 参考訳(メタデータ) (2022-06-14T19:52:23Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Superpolynomial Lower Bounds for Learning One-Layer Neural Networks
using Gradient Descent [25.589302381660453]
また,2乗空間分布に対する勾配勾配勾配を用いた場合,時間的誤差が小さいことを示す。
分類では,任意の統計的クエリ(SQ)が時間内に小さなテストエラーを達成できないという,より強力な結果が得られる。
論文 参考訳(メタデータ) (2020-06-22T05:15:06Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。