論文の概要: Minimizing Chebyshev Prototype Risk Magically Mitigates the Perils of Overfitting
- arxiv url: http://arxiv.org/abs/2404.07083v1
- Date: Wed, 10 Apr 2024 15:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 13:51:53.844151
- Title: Minimizing Chebyshev Prototype Risk Magically Mitigates the Perils of Overfitting
- Title(参考訳): Chebyshevのプロトタイプのリスク最小化は、オーバーフィッティングの危険性を魔法のように軽減する
- Authors: Nathaniel Dean, Dilip Sarkar,
- Abstract要約: 過度に適合したディープニューラルネットワーク(DNN)は、トレーニングサンプルに過度に適合する可能性があり、テストデータの一般化に適していない。
オーバーフィッティングを回避するため、研究者はクラス内特徴相関を減少させる多成分損失関数を開発した。
我々は,Chebyshev Prototype Risk (CPR) という用語を明示的なCPR損失関数に限定して実装する。
- 参考スコア(独自算出の注目度): 1.6574413179773757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Overparameterized deep neural networks (DNNs), if not sufficiently regularized, are susceptible to overfitting their training examples and not generalizing well to test data. To discourage overfitting, researchers have developed multicomponent loss functions that reduce intra-class feature correlation and maximize inter-class feature distance in one or more layers of the network. By analyzing the penultimate feature layer activations output by a DNN's feature extraction section prior to the linear classifier, we find that modified forms of the intra-class feature covariance and inter-class prototype separation are key components of a fundamental Chebyshev upper bound on the probability of misclassification, which we designate the Chebyshev Prototype Risk (CPR). While previous approaches' covariance loss terms scale quadratically with the number of network features, our CPR bound indicates that an approximate covariance loss in log-linear time is sufficient to reduce the bound and is scalable to large architectures. We implement the terms of the CPR bound into our Explicit CPR (exCPR) loss function and observe from empirical results on multiple datasets and network architectures that our training algorithm reduces overfitting and improves upon previous approaches in many settings. Our code is available $\href{https://github.com/Deano1718/Regularization_exCPR}{here}$.
- Abstract(参考訳): 過パラメータ化ディープニューラルネットワーク(DNN)は、十分に正規化されていないとしても、トレーニングサンプルに過度に適合する可能性があり、テストデータの一般化が不十分である。
オーバーフィッティングを回避するために、ネットワークの1層以上の層におけるクラス内特徴相関を低減し、クラス間特徴距離を最大化する多成分損失関数を開発した。
線形分類器に先立ってDNNの特徴抽出部が出力する最小の特徴層活性化を解析することにより,CPR(Chebyshev Prototype Risk)という誤分類の確率に基づいて,クラス内特徴共分散とクラス間プロトタイプ分離の修正形式が基本的なチェビシェフ上界のキーコンポーネントであることが判明した。
従来のアプローチの共分散損失項はネットワーク特徴数と2次にスケールするが,我々のCPR境界は,対数線形時間における近似共分散損失が境界を小さくするのに十分であり,大規模アーキテクチャにも拡張可能であることを示唆している。
我々は、Explicit CPR(exCPR)損失関数にバウンドされたCPRの条件を実装し、複数のデータセットやネットワークアーキテクチャ上で経験的な結果から、トレーニングアルゴリズムがオーバーフィッティングを減らし、多くの設定で以前のアプローチを改善していることを観察する。
私たちのコードは$\href{https://github.com/Deano1718/Regularization_exCPR}{here}$で利用可能です。
関連論文リスト
- Not Only the Last-Layer Features for Spurious Correlations: All Layer Deep Feature Reweighting [9.141594510823799]
急激な相関と戦うための強力なアプローチは、バランスの取れたバリデーションデータセットで最後のレイヤを再トレーニングすることです。
重要な属性は、ニューラルネットワークによって最後のレイヤに向けて破棄されることがある。
本研究では,すべての層から派生した特徴の集合上で,分類器を再学習することを検討する。
論文 参考訳(メタデータ) (2024-09-23T00:31:39Z) - On Sequential Loss Approximation for Continual Learning [0.0]
連続学習用オートディフ2次統合(AQC)とニューラル・コンソリデーション(NC)について紹介する。
AQCは前回の損失関数を二次関数に近似し、NCは前回の損失関数をニューラルネットワークに近似する。
本研究では,これらの手法を,正規化に基づく手法が不満足な結果をもたらすクラス増分学習において実証的に研究する。
論文 参考訳(メタデータ) (2024-05-26T09:20:47Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Towards Practical Control of Singular Values of Convolutional Layers [65.25070864775793]
畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な特性は制御が難しい。
最近の研究では、畳み込み層の特異値がそのような解像特性に顕著に影響を及ぼすことが示された。
我々は,レイヤ表現力の著しく低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提供する。
論文 参考訳(メタデータ) (2022-11-24T19:09:44Z) - Adaptive Self-supervision Algorithms for Physics-informed Neural
Networks [59.822151945132525]
物理情報ニューラルネットワーク(PINN)は、損失関数のソフト制約として問題領域からの物理的知識を取り入れている。
これらのモデルの訓練性に及ぼす座標点の位置の影響について検討した。
モデルがより高い誤りを犯している領域に対して、より多くのコロケーションポイントを段階的に割り当てる適応的コロケーション方式を提案する。
論文 参考訳(メタデータ) (2022-07-08T18:17:06Z) - Voxelmorph++ Going beyond the cranial vault with keypoint supervision
and multi-channel instance optimisation [8.88841928746097]
近年のLearn2Regベンチマークでは,単スケールU-Netアーキテクチャーは腹部または患者内肺登録の最先端性能に劣っている。
本稿では、この精度のギャップを大幅に減らすための2つの簡単な手順を提案する。
まず、離散化されたヒートマップを予測する新しいネットワークヘッドを備えたキーポイント・セルフスーパービジョンを用いる。
次に、複数の学習した微調整ステップを、手作りの機能とAdamオプティマイザでひとつのインスタンスに置き換える。
論文 参考訳(メタデータ) (2022-02-28T19:23:29Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - $\sigma^2$R Loss: a Weighted Loss by Multiplicative Factors using
Sigmoidal Functions [0.9569316316728905]
我々は,二乗還元損失(sigma2$R損失)と呼ばれる新たな損失関数を導入する。
我々の損失は明らかな直観と幾何学的解釈を持ち、我々の提案の有効性を実験によって実証する。
論文 参考訳(メタデータ) (2020-09-18T12:34:40Z) - A Partial Regularization Method for Network Compression [0.0]
本稿では, モデル圧縮を高速に行うために, 完全正則化と言われる全てのパラメータをペナライズする元の形式ではなく, 部分正則化のアプローチを提案する。
実験結果から, ほぼすべての状況において, 走行時間の減少を観測することにより, 計算複雑性を低減できることが示唆された。
驚くべきことに、複数のデータセットのトレーニングフェーズとテストフェーズの両方において、回帰フィッティング結果や分類精度などの重要な指標を改善するのに役立ちます。
論文 参考訳(メタデータ) (2020-09-03T00:38:27Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。