論文の概要: Improving Generalization of Deep Neural Networks by Optimum Shifting
- arxiv url: http://arxiv.org/abs/2405.14111v1
- Date: Thu, 23 May 2024 02:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:24:51.715072
- Title: Improving Generalization of Deep Neural Networks by Optimum Shifting
- Title(参考訳): 最適化シフトによるディープニューラルネットワークの一般化改善
- Authors: Yuyan Zhou, Ye Li, Lei Feng, Sheng-Jun Huang,
- Abstract要約: 本稿では,ニューラルネットワークのパラメータを最小値からフラット値に変化させる,近位シフトと呼ばれる新しい手法を提案する。
本手法は,ニューラルネットワークの入力と出力が固定された場合,ネットワーク内の行列乗算を,未決定線形方程式系として扱うことができることを示す。
- 参考スコア(独自算出の注目度): 33.092571599896814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies showed that the generalization of neural networks is correlated with the sharpness of the loss landscape, and flat minima suggests a better generalization ability than sharp minima. In this paper, we propose a novel method called \emph{optimum shifting}, which changes the parameters of a neural network from a sharp minimum to a flatter one while maintaining the same training loss value. Our method is based on the observation that when the input and output of a neural network are fixed, the matrix multiplications within the network can be treated as systems of under-determined linear equations, enabling adjustment of parameters in the solution space, which can be simply accomplished by solving a constrained optimization problem. Furthermore, we introduce a practical stochastic optimum shifting technique utilizing the Neural Collapse theory to reduce computational costs and provide more degrees of freedom for optimum shifting. Extensive experiments (including classification and detection) with various deep neural network architectures on benchmark datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): 近年の研究では、ニューラルネットワークの一般化はロスランドスケープのシャープネスと相関していることが示されており、フラット・ミニマはシャープ・ミニマよりも優れた一般化能力を示唆している。
本稿では,ニューラルネットワークのパラメータを最大値からフラット値に変更し,同じトレーニング損失値を維持しながら,新しい手法である「emph{optimum shifting"」を提案する。
提案手法は,ニューラルネットワークの入力と出力が固定された場合,ネットワーク内の行列乗算を未決定線形方程式系として扱うことができ,制約付き最適化問題を解くことで,解空間内のパラメータの調整を可能にする。
さらに,ニューラルネットワークを用いた確率的最適シフト技術を導入し,計算コストを削減し,最適シフトのための自由度を向上する。
ベンチマークデータセット上での様々なディープニューラルネットワークアーキテクチャを用いた大規模な実験(分類と検出を含む)により,本手法の有効性が示された。
関連論文リスト
- Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Imbedding Deep Neural Networks [0.0]
ニューラルODEのような連続深度ニューラルネットワークは、非線形ベクトル値の最適制御問題の観点から、残留ニューラルネットワークの理解を再燃させた。
本稿では,ネットワークの深さを基本変数とする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T22:00:41Z) - Neuron-based Pruning of Deep Neural Networks with Better Generalization
using Kronecker Factored Curvature Approximation [18.224344440110862]
提案アルゴリズムは、ヘッセンのスペクトル半径を探索することにより、圧縮されたモデルのパラメータを平らな解へ向ける。
以上の結果から, ニューロン圧縮における最先端の結果が向上することが示唆された。
この手法は、異なるニューラルネットワークモデル間で小さな精度で、非常に小さなネットワークを実現することができる。
論文 参考訳(メタデータ) (2021-11-16T15:55:59Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - ODEN: A Framework to Solve Ordinary Differential Equations using
Artificial Neural Networks [0.0]
我々は、ニューラルネットワークの性能を評価するために、正確な解の知識を必要としない特定の損失関数を証明した。
ニューラルネットワークは、トレーニング領域内での継続的ソリューションの近似に熟練していることが示されている。
ユーザフレンドリで適応可能なオープンソースコード(ODE$mathcalN$)がGitHubで提供されている。
論文 参考訳(メタデータ) (2020-05-28T15:34:10Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。