論文の概要: Efficient Sparse Training with Structured Dropout
- arxiv url: http://arxiv.org/abs/2411.01238v1
- Date: Sat, 02 Nov 2024 13:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:47:10.790375
- Title: Efficient Sparse Training with Structured Dropout
- Title(参考訳): 構造化ドロップアウトを用いた効率的なスパーストレーニング
- Authors: Andy Lo,
- Abstract要約: SparseDropは、ハードウェアフレンドリーな構成のドロップアウトで、スパーシティを活用できる。
SparseDropの実装として,低空間レベルでも高密度のSparseDropに対して高速化を実現する。
これは、トレーニング速度が速く、標準のドロップアウトに取って代わる可能性を示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Dropout is a common regularisation technique in deep learning that improves generalisation. Even though it introduces sparsity and thus potential for higher throughput, it usually cannot bring speed-ups on GPUs due to its unstructured nature. In this project, I experiment with SparseDrop, a structured, hardware-friendly variant of dropout that can exploit such sparsity. I provide a CUDA implementation of SparseDrop, achieving speed-ups against its dense counterpart even at low sparsity levels. The empirical results demonstrate that SparseDrop provides similar, or sometimes even better, regularisation properties as standard dropout. This suggests its potential as a drop-in replacement to standard dropout with faster training speeds. The source code is available at https://github.com/andylolu2/sparse-dropout
- Abstract(参考訳): ドロップアウト(Dropout)は、ディープラーニングにおいて一般化を改善する一般的な正規化手法である。
スパーシリティを導入し、高いスループットの可能性がもたらされるが、非構造的な性質のため、GPU上でのスピードアップは通常不可能である。
このプロジェクトで、私はSparseDropを実験しました。
SparseDropのCUDA実装として,低空間レベルでも高密度のSparseDropに対して高速化を実現する。
実証的な結果は、SparseDropが標準のドロップアウトとして同様の、あるいは、時にはもっと良い正規化プロパティを提供することを示している。
これは、トレーニング速度が速く、標準のドロップアウトに取って代わる可能性を示している。
ソースコードはhttps://github.com/andylolu2/sparse-dropoutで入手できる。
関連論文リスト
- Dynamic Sparsity Is Channel-Level Sparsity Learner [91.31071026340746]
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、ススパーストレーニングの指導的アプローチである。
チャネル対応動的スパース(Chase)は、非構造的動的スパースをチャネルレベルのスパースにシームレスに変換する。
提案手法は,非構造的空間性からチャネルワイド空間性へ変換する。
論文 参考訳(メタデータ) (2023-05-30T23:33:45Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Revisiting Structured Dropout [11.011268090482577]
textbfemphProbDropBlockは、正規化されたフィーチャーサリエンス値によって与えられる確率で、特徴マップから連続したブロックをドロップする。
単純なスケジューリング戦略では,ベースラインよりもモデル性能が一貫して向上していることが判明した。
論文 参考訳(メタデータ) (2022-10-05T21:26:57Z) - Implicit regularization of dropout [3.42658286826597]
一般的な正規化手法であるドロップアウトが、ニューラルネットワークトレーニング中に優れた一般化ソリューションを実現するのにどのように役立つかを理解することが重要である。
本研究では,一連の実験によって検証されたドロップアウトの暗黙の正則化の理論的導出について述べる。
降下によるトレーニングは、標準勾配降下訓練と比較して、より平坦な最小限のニューラルネットワークに導かれることを実験的に見出した。
論文 参考訳(メタデータ) (2022-07-13T04:09:14Z) - R-Drop: Regularized Dropout for Neural Networks [99.42791938544012]
ドロップアウト(Dropout)は、ディープニューラルネットワークのトレーニングを規則化する、強力で広く使用されているテクニックである。
モデルトレーニングにおけるドロップアウト時の単純な正規化戦略、すなわちR-Dropを導入し、異なるサブモデルの出力分布を互いに整合させる。
論文 参考訳(メタデータ) (2021-06-28T08:01:26Z) - UniDrop: A Simple yet Effective Technique to Improve Transformer without
Extra Cost [110.67392881417777]
トランスフォーマーアーキテクチャは、豊富な自然言語処理タスクで大きな成功を収めます。
ドロップアウトなどのシンプルな手法で、慎重な設計でモデル性能を大幅に向上させることができます。
具体的には,3種類のドロップアウト手法を統一するUniDropという手法を提案する。
論文 参考訳(メタデータ) (2021-04-11T07:43:19Z) - AutoDropout: Learning Dropout Patterns to Regularize Deep Networks [82.28118615561912]
ドロップアウトまたは重量減衰方法は、ネットワークの入力と隠された状態の構造を利用しません。
本手法は,CIFAR-10 と ImageNet 上の画像認識と Penn Treebank および WikiText-2 上の言語モデリングに有効であることを示す。
学習したドロップアウトパターンは、penn treebankの言語モデルからwmt 2014のengligh- french translationまで、さまざまなタスクやデータセットに転送される。
論文 参考訳(メタデータ) (2021-01-05T19:54:22Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - DropCluster: A structured dropout for convolutional networks [0.7489179288638513]
ディープニューラルネットワークにおける正規化器としてのドロップアウトは、完全に接続された層よりも畳み込み層において効果が低い。
我々は、DropClusterと呼ばれる畳み込み層に対して、新しい構造化された正規化を導入する。
我々のアプローチは、DropBlockや他の既存の構造化されたドロップアウトモデルよりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-02-07T20:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。