論文の概要: SING: A Plug-and-Play DNN Learning Technique
- arxiv url: http://arxiv.org/abs/2305.15997v1
- Date: Thu, 25 May 2023 12:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 15:18:56.495435
- Title: SING: A Plug-and-Play DNN Learning Technique
- Title(参考訳): SING: プラグアンドプレイDNN学習技術
- Authors: Adrien Courtois, Damien Scieur, Jean-Michel Morel, Pablo Arias, Thomas
Eboli
- Abstract要約: 我々は,Adam(W)の安定性とロバスト性を向上させるプラグアンドプレイ技術であるSING(StabIlized and Normalized Gradient)を提案する。
SINGは実装が簡単で、最小限の計算オーバーヘッドを持ち、Adam(W)に供給される勾配の層単位での標準化しか必要としない。
- 参考スコア(独自算出の注目度): 25.563053353709627
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose SING (StabIlized and Normalized Gradient), a plug-and-play
technique that improves the stability and generalization of the Adam(W)
optimizer. SING is straightforward to implement and has minimal computational
overhead, requiring only a layer-wise standardization of the gradients fed to
Adam(W) without introducing additional hyper-parameters. We support the
effectiveness and practicality of the proposed approach by showing improved
results on a wide range of architectures, problems (such as image
classification, depth estimation, and natural language processing), and in
combination with other optimizers. We provide a theoretical analysis of the
convergence of the method, and we show that by virtue of the standardization,
SING can escape local minima narrower than a threshold that is inversely
proportional to the network's depth.
- Abstract(参考訳): 本稿では,Adam(W)オプティマイザの安定性と一般化を改善するプラグイン・アンド・プレイ技術であるSING(StabIlized and Normalized Gradient)を提案する。
SINGは実装が簡単で計算オーバーヘッドも最小限であり、追加のハイパーパラメータを導入することなくAdam(W)に供給される勾配を階層的に標準化するだけでよい。
提案手法の有効性と実用性は,幅広いアーキテクチャ,問題(画像分類,奥行き推定,自然言語処理など),および他のオプティマイザと組み合わせて,改善した結果を示すことによって支援する。
本手法の収束に関する理論的解析を行い、標準化により、SINGはネットワークの深さに逆比例する閾値よりも狭い局所最小値から逃れることができることを示す。
関連論文リスト
- CaAdam: Improving Adam optimizer using connection aware methods [0.0]
我々はAdamにインスパイアされた新しい手法を導入し、収束速度を高め、損失関数の最小化を実現する。
Adamを含む従来のプロキシは、アーキテクチャの詳細を考慮せずに、ニューラルネットワーク全体で均一またはグローバルに調整された学習率を適用している。
我々のアルゴリズムであるCaAdamは、アーキテクチャ情報を慎重に設計することで、接続対応の最適化を導入することで、見落としている領域を探索する。
論文 参考訳(メタデータ) (2024-10-31T17:59:46Z) - Component-based Sketching for Deep ReLU Nets [55.404661149594375]
各種タスクのためのディープネットコンポーネントに基づくスケッチ手法を開発した。
我々はディープネットトレーニングを線形経験的リスク最小化問題に変換する。
提案したコンポーネントベーススケッチは飽和関数の近似においてほぼ最適であることを示す。
論文 参考訳(メタデータ) (2024-09-21T15:30:43Z) - Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。
この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。
本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。
ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文 参考訳(メタデータ) (2024-09-17T19:59:57Z) - Edge-Efficient Deep Learning Models for Automatic Modulation Classification: A Performance Analysis [0.7428236410246183]
無線信号の自動変調分類(AMC)のための最適化畳み込みニューラルネットワーク(CNN)について検討した。
本稿では,これらの手法を組み合わせて最適化モデルを提案する。
実験結果から,提案手法と組み合わせ最適化手法は,複雑度が著しく低いモデルの開発に極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-11T06:08:23Z) - G-TRACER: Expected Sharpness Optimization [1.2183405753834562]
G-TRACERは、平坦なミニマムを求めることによって一般化を促進し、一般化ベイズ目標の自然な漸進的な降下に基づく最適化への近似として音理論的基礎を持つ。
本手法は,非正規化対象の局所最小値近傍に収束し,多数のベンチマークコンピュータビジョンとNLPデータセット上での競合性能を示す。
論文 参考訳(メタデータ) (2023-06-24T09:28:49Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Low-Pass Filtering SGD for Recovering Flat Optima in the Deep Learning
Optimization Landscape [15.362190838843915]
LPF-SGD は SGD よりも小さい一般化誤差でより良い最適点に収束することを示す。
本稿では,一般的なDLトレーニング手法と比較して,アルゴリズムが優れた一般化性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-20T07:13:04Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。