論文の概要: Regularization and Reparameterization Avoid Vanishing Gradients in
Sigmoid-Type Networks
- arxiv url: http://arxiv.org/abs/2106.02260v1
- Date: Fri, 4 Jun 2021 04:53:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:25:49.413042
- Title: Regularization and Reparameterization Avoid Vanishing Gradients in
Sigmoid-Type Networks
- Title(参考訳): シグモイド型ネットワークにおける消失勾配の正規化と再パラメータ化
- Authors: Leni Ven and Johannes Lederer
- Abstract要約: 本稿では,シグモイド型アクティベーションの文脈における消滅段階の問題を再考する。
我々は、この現象の2つの異なる原因、すなわち大きな個々のパラメータと層間の効果を浮き彫りにするために数学的議論を用い、また、正規化と再スケーリングという2つの単純な治療法を説明する。
- 参考スコア(独自算出の注目度): 0.3553493344868413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning requires several design choices, such as the nodes' activation
functions and the widths, types, and arrangements of the layers. One
consideration when making these choices is the vanishing-gradient problem,
which is the phenomenon of algorithms getting stuck at suboptimal points due to
small gradients. In this paper, we revisit the vanishing-gradient problem in
the context of sigmoid-type activation. We use mathematical arguments to
highlight two different sources of the phenomenon, namely large individual
parameters and effects across layers, and to illustrate two simple remedies,
namely regularization and rescaling. We then demonstrate the effectiveness of
the two remedies in practice. In view of the vanishing-gradient problem being a
main reason why tanh and other sigmoid-type activation has become much less
popular than relu-type activation, our results bring sigmoid-type activation
back to the table.
- Abstract(参考訳): ディープラーニングには、ノードのアクティベーション機能や、レイヤの幅、タイプ、アレンジメントなど、いくつかの設計選択が必要である。
これらの選択を行う際の1つの考慮事項は、小さな勾配のためにアルゴリズムが最適でない点で立ち往生する現象である消滅勾配問題である。
本稿では,シグモイド型アクティベーションの文脈における消滅段階の問題を再考する。
この現象の2つの異なる源、すなわち層間の大きなパラメータと効果を数学的議論で強調し、正規化と再スケーリングという2つの単純な治療法を説明する。
次に,2つの治療法の有効性を実演する。
tanhや他のsgmoid型アクティベーションがrelu型アクティベーションよりもはるかに普及していない主な理由は,消失段階の問題を考えると,sgmoid型アクティベーションをテーブルに戻すことができる。
関連論文リスト
- Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features [115.33889811527533]
拡散モデルは当初、画像生成のために設計されている。
近年の研究では、バックボーンの内部シグナルはアクティベーションと呼ばれ、様々な識別タスクの高密度な特徴として機能することが示されている。
論文 参考訳(メタデータ) (2024-10-04T16:05:14Z) - The Quest of Finding the Antidote to Sparse Double Descent [1.336445018915526]
モデルの幅が大きくなると、まず性能が悪化し、その後改善され、最終的に劣化する。
このような単調な振る舞いは、高性能を維持するために最適なモデルのサイズについて深刻な疑問を提起する。
単純な$ell$正規化法は、この現象を緩和するのに役立つが、性能/疎結合性を犠牲にする。
論文 参考訳(メタデータ) (2023-08-31T09:56:40Z) - Expand-and-Cluster: Parameter Recovery of Neural Networks [9.497862562614666]
それぞれのニューロンの重みベクトルは,活性化関数に応じて,サインやスケーリングが可能であることを示す。
提案手法は, 一般的に使用されるすべてのアクティベーション関数に対して, 対象ネットワークの重みを同定する。
論文 参考訳(メタデータ) (2023-04-25T13:14:20Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Sparsity and Heterogeneous Dropout for Continual Learning in the Null
Space of Neural Activations [36.24028295650668]
非定常的な入力データストリームからの連続的/長期的学習は知性の基盤である。
ディープニューラルネットワークは、新しいものを学ぶ際に、これまで学んだ情報を忘れる傾向がある。
近年、ディープニューラルネットワークにおける破滅的な忘れを乗り越えることが、研究の活発な分野となっている。
論文 参考訳(メタデータ) (2022-03-12T21:12:41Z) - TSG: Target-Selective Gradient Backprop for Probing CNN Visual Saliency [72.9106103283475]
我々は、畳み込みニューラルネットワークを解釈するために視覚的サリエンシ、すなわち視覚的説明について研究する。
これらの観測に触発されて、我々はTSG(Target-Selective Gradient)バックプロップと呼ばれる新しいビジュアル・サリエンシ・フレームワークを提案する。
提案したTSGはTSG-ConvとTSG-FCの2つのコンポーネントから構成され、それぞれ畳み込み層と完全連結層の勾配を補正する。
論文 参考訳(メタデータ) (2021-10-11T12:00:20Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Boosting Gradient for White-Box Adversarial Attacks [60.422511092730026]
そこで本研究では,ADV-ReLUと呼ばれる,勾配に基づくホワイトボックス攻撃アルゴリズムの性能向上を目的とした,汎用的な逆例生成手法を提案する。
提案手法では,損失関数とネットワーク入力の勾配を算出し,その値をスコアにマップし,その一部を選択して誤導勾配を更新する。
論文 参考訳(メタデータ) (2020-10-21T02:13:26Z) - Towards Efficient Processing and Learning with Spikes: New Approaches
for Multi-Spike Learning [59.249322621035056]
各種タスクにおける他のベースラインよりも優れた性能を示すための2つの新しいマルチスパイク学習ルールを提案する。
特徴検出タスクでは、教師なしSTDPの能力と、その制限を提示する能力を再検討する。
提案した学習ルールは,特定の制約を適用せずに,幅広い条件で確実にタスクを解くことができる。
論文 参考訳(メタデータ) (2020-05-02T06:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。