論文の概要: Peeking Behind the Curtains of Residual Learning
- arxiv url: http://arxiv.org/abs/2402.08645v1
- Date: Tue, 13 Feb 2024 18:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 14:18:43.681489
- Title: Peeking Behind the Curtains of Residual Learning
- Title(参考訳): 残酷な学習のカーテンの後ろを覗く
- Authors: Tunhou Zhang, Feng Yan, Hai Li, Yiran Chen
- Abstract要約: The Plain Neural Net hypothesis (PNNH) は、非線形層を横断する内部経路を残留学習において最も重要な部分として認識する。
我々は,PNNH対応CNNアーキテクチャとトランスフォーマーを一般的なビジョンベンチマーク上で徹底的に評価し,トレーニングスループットが最大0.3%向上し,ResNetやビジョントランスフォーマーに比べてパラメータ効率が2倍向上したことを示す。
- 参考スコア(独自算出の注目度): 10.915277646160707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The utilization of residual learning has become widespread in deep and
scalable neural nets. However, the fundamental principles that contribute to
the success of residual learning remain elusive, thus hindering effective
training of plain nets with depth scalability. In this paper, we peek behind
the curtains of residual learning by uncovering the "dissipating inputs"
phenomenon that leads to convergence failure in plain neural nets: the input is
gradually compromised through plain layers due to non-linearities, resulting in
challenges of learning feature representations. We theoretically demonstrate
how plain neural nets degenerate the input to random noise and emphasize the
significance of a residual connection that maintains a better lower bound of
surviving neurons as a solution. With our theoretical discoveries, we propose
"The Plain Neural Net Hypothesis" (PNNH) that identifies the internal path
across non-linear layers as the most critical part in residual learning, and
establishes a paradigm to support the training of deep plain neural nets devoid
of residual connections. We thoroughly evaluate PNNH-enabled CNN architectures
and Transformers on popular vision benchmarks, showing on-par accuracy, up to
0.3% higher training throughput, and 2x better parameter efficiency compared to
ResNets and vision Transformers.
- Abstract(参考訳): 深層およびスケーラブルなニューラルネットワークでは,残差学習の利用が広く普及している。
しかし,残差学習の成功に寄与する基本原理はいまだ解明されていないため,深度拡張性のある平網の効果的な訓練を妨げている。
本稿では,非線形性によって入力が徐々に平らな層に分散し,特徴表現の学習が困難になるという,平易なニューラルネットの収束不全につながる「散逸する入力」現象を明らかにすることで,残差学習の幕裏を垣間見る。
理論的には、ニューラルネットワークがランダムノイズへの入力をいかに退避させるかを示し、残余接続の重要さを強調し、生存するニューロンのより低い境界を解として維持する。
理論的な発見により,非線形層を横断する内部経路を残留学習の最も重要な部分として同定する「プレーンニューラルネット仮説(pnnh)」を提案し,残留接続のない深いプレーンニューラルネットの訓練を支援するパラダイムを確立した。
我々は,PNNH対応CNNアーキテクチャとトランスフォーマーを一般的なビジョンベンチマーク上で徹底的に評価し,トレーニングスループットが最大0.3%向上し,ResNetやビジョントランスフォーマーに比べてパラメータ効率が2倍向上したことを示す。
関連論文リスト
- Confident magnitude-based neural network pruning [0.0]
ニューラルネットワークのプルーニングは、ディープラーニングモデルの効率向上とメモリストレージの削減に成功している。
我々は、分布のない不確実性定量化に関する最近の技術を活用し、深いニューラルネットワークを圧縮するための有限サンプル統計保証を提供する。
この研究は、不確実性を認識したプルーニングが、スパースニューラルネットワークを安全にデプロイするための有用なアプローチであることを示すために、コンピュータビジョンタスクでの実験を示す。
論文 参考訳(メタデータ) (2024-08-08T21:29:20Z) - Deep Neural Networks Tend To Extrapolate Predictably [51.303814412294514]
ニューラルネットワークの予測は、アウト・オブ・ディストリビューション(OOD)入力に直面した場合、予測不可能で過信される傾向がある。
我々は、入力データがOODになるにつれて、ニューラルネットワークの予測が一定値に向かう傾向があることを観察する。
我々は、OOD入力の存在下でリスクに敏感な意思決定を可能にするために、私たちの洞察を実際に活用する方法を示します。
論文 参考訳(メタデータ) (2023-10-02T03:25:32Z) - Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Global quantitative robustness of regression feed-forward neural
networks [0.0]
我々は回帰分解点の概念を回帰ニューラルネットワークに適用する。
我々は、故障率のプロキシにより、サンプル外損失によって測定された性能を比較した。
この結果は、ニューラルネットワークのトレーニングにロバストな損失関数を使うことを動機付けている。
論文 参考訳(メタデータ) (2022-11-18T09:57:53Z) - Can pruning improve certified robustness of neural networks? [106.03070538582222]
ニューラルネット・プルーニングはディープ・ニューラル・ネットワーク(NN)の実証的ロバスト性を向上させることができることを示す。
実験の結果,NNを適切に刈り取ることで,その精度を8.2%まで向上させることができることがわかった。
さらに,認証された宝くじの存在が,従来の密集モデルの標準および認証された堅牢な精度に一致することを観察する。
論文 参考訳(メタデータ) (2022-06-15T05:48:51Z) - S2-BNN: Bridging the Gap Between Self-Supervised Real and 1-bit Neural
Networks via Guided Distribution Calibration [74.5509794733707]
本研究では, 実数値から, 最終予測分布上のバイナリネットワークへの誘導型学習パラダイムを提案する。
提案手法は,bnn上で5.515%の絶対利得で,単純なコントラスト学習ベースラインを向上できる。
提案手法は、単純なコントラスト学習ベースラインよりも大幅に改善され、多くの主流教師付きBNN手法に匹敵する。
論文 参考訳(メタデータ) (2021-02-17T18:59:28Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z) - Implicit recurrent networks: A novel approach to stationary input
processing with recurrent neural networks in deep learning [0.0]
本研究では,ニューラルネットの新たな実装を深層学習に導入し,検証する。
繰り返しネットワークの暗黙的な実装にバックプロパゲーションアルゴリズムを実装するアルゴリズムを提案する。
シングルレイヤの暗黙的リカレントネットワークはXOR問題を解くことができ、一方、単調に活性化関数が増加するフィードフォワードネットワークは、このタスクで失敗する。
論文 参考訳(メタデータ) (2020-10-20T18:55:32Z) - Feature Purification: How Adversarial Training Performs Robust Deep
Learning [66.05472746340142]
ニューラルネットワークのトレーニングプロセス中に隠れた重みに、特定の小さな密度の混合物が蓄積されることが、敵の例の存在の原因の1つであることを示す。
この原理を説明するために、CIFAR-10データセットの両実験と、ある自然な分類タスクに対して、ランダムな勾配勾配勾配を用いた2層ニューラルネットワークをトレーニングすることを証明する理論的結果を示す。
論文 参考訳(メタデータ) (2020-05-20T16:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。