論文の概要: The Impact of Activation Sparsity on Overfitting in Convolutional Neural
Networks
- arxiv url: http://arxiv.org/abs/2104.06153v1
- Date: Tue, 13 Apr 2021 12:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 20:08:24.477320
- Title: The Impact of Activation Sparsity on Overfitting in Convolutional Neural
Networks
- Title(参考訳): 畳み込みニューラルネットワークのオーバーフィッティングに及ぼす活性化空間の影響
- Authors: Karim Huesmann, Luis Garcia Rodriguez, Lars Linsen, and Benjamin Risse
- Abstract要約: オーバーフィッティングは畳み込みニューラルネットワークのトレーニングにおける基本的な課題の1つです。
本研究では,レイヤワイドアクティベーション対策の導出と可視化を目的としたパープレキシティに基づく空間性定義を提案する。
- 参考スコア(独自算出の注目度): 1.9424280683610138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Overfitting is one of the fundamental challenges when training convolutional
neural networks and is usually identified by a diverging training and test
loss. The underlying dynamics of how the flow of activations induce overfitting
is however poorly understood. In this study we introduce a perplexity-based
sparsity definition to derive and visualise layer-wise activation measures.
These novel explainable AI strategies reveal a surprising relationship between
activation sparsity and overfitting, namely an increase in sparsity in the
feature extraction layers shortly before the test loss starts rising. This
tendency is preserved across network architectures and reguralisation
strategies so that our measures can be used as a reliable indicator for
overfitting while decoupling the network's generalisation capabilities from its
loss-based definition. Moreover, our differentiable sparsity formulation can be
used to explicitly penalise the emergence of sparsity during training so that
the impact of reduced sparsity on overfitting can be studied in real-time.
Applying this penalty and analysing activation sparsity for well known
regularisers and in common network architectures supports the hypothesis that
reduced activation sparsity can effectively improve the generalisation and
classification performance. In line with other recent work on this topic, our
methods reveal novel insights into the contradicting concepts of activation
sparsity and network capacity by demonstrating that dense activations can
enable discriminative feature learning while efficiently exploiting the
capacity of deep models without suffering from overfitting, even when trained
excessively.
- Abstract(参考訳): 重ね合わせは畳み込みニューラルネットワークのトレーニングにおける基本的な課題の1つであり、通常、トレーニングとテストの損失の分散によって識別される。
しかし、アクティベーションの流れがオーバーフィッティングを誘発する方法の基盤となるダイナミクスは、あまり理解されていない。
本研究では,レイヤワイドアクティベーション対策の導出と可視化を目的としたパープレキシティに基づく空間性定義を提案する。
これらの新しい説明可能なai戦略は、アクティベーションスパーシティと過剰フィッティング、すなわちテスト損失が高まる直前の機能抽出層におけるスパーシティの増加との間に驚くべき関係を示している。
この傾向は、ネットワークアーキテクチャとレギュライゼーション戦略にまたがって保存され、我々の尺度は、ネットワークの一般化能力を損失ベースの定義から切り離しながら、オーバーフィッティングの信頼できる指標として使用できる。
さらに, 学習中にスパーシティが出現することを明確に罰し, スパーシティの低下が過剰フィッティングに与える影響をリアルタイムで研究できる。
このペナルティを適用して、よく知られた正規表現や一般的なネットワークアーキテクチャでアクティベーション空間を解析することで、アクティベーション空間の減少が一般化と分類性能を効果的に改善できるという仮説を支持する。
提案手法は, 過度に訓練しても, 過度に訓練しても, 過度に適合することなく, 深層モデルのキャパシティを効果的に活用しながら, 濃厚なアクティベーションが識別的特徴学習を可能にすることを示すことによって, アクティベーション空間とネットワークキャパシティの相反する概念に関する新たな知見を提示する。
関連論文リスト
- Learning Neural Networks with Sparse Activations [42.88109060676769]
変圧器ネットワークでは、このブロックの隠された層における活性化は、任意の入力に対して非常に緩い傾向にある。
ネットワークから除去できるニューロンやウェイトが存在する従来のスペーシリティとは異なり、このエムアクティベーションのスペーシリティは利用するのが困難である。
関数のクラスが証明可能な計算と統計上の優位性をもたらすことを示す様々な結果を示す。
論文 参考訳(メタデータ) (2024-06-26T00:11:13Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Towards Improving Robustness Against Common Corruptions using Mixture of
Class Specific Experts [10.27974860479791]
本稿では,クラス特化エキスパートアーキテクチャの混合として知られる新しいパラダイムを紹介する。
提案したアーキテクチャは、一般的なニューラルネットワーク構造に関連する脆弱性を軽減することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T20:09:47Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Understanding and Preventing Capacity Loss in Reinforcement Learning [28.52122927103544]
我々は、非定常予測対象が深層RLエージェントの学習進行を阻止できるメカニズムを同定する。
キャパシティ損失は様々なRLエージェントや環境で発生し、特にスパース・リワードタスクのパフォーマンスにダメージを与えている。
論文 参考訳(メタデータ) (2022-04-20T15:55:15Z) - Clustering-Based Interpretation of Deep ReLU Network [17.234442722611803]
我々はReLU関数の非線形挙動が自然なクラスタリングを引き起こすことを認識している。
本稿では,完全連結フィードフォワードReLUニューラルネットワークの解釈可能性を高める手法を提案する。
論文 参考訳(メタデータ) (2021-10-13T09:24:11Z) - Residual Error: a New Performance Measure for Adversarial Robustness [85.0371352689919]
ディープラーニングの広く普及を制限する大きな課題は、敵の攻撃に対する脆弱さである。
本研究は,ディープニューラルネットワークの対角強靭性を評価するための新しい性能尺度である残留誤差の概念を提示する。
画像分類を用いた実験結果から,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2021-06-18T16:34:23Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z) - Exploiting the Full Capacity of Deep Neural Networks while Avoiding
Overfitting by Targeted Sparsity Regularization [1.3764085113103217]
オーバーフィッティングは、比較的小さなデータセットでディープニューラルネットワークをトレーニングする際の最も一般的な問題の1つである。
オーバーフィッティング対策として, 新規な対象空間可視化と正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-02-21T11:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。