論文の概要: Analytic Study of Double Descent in Binary Classification: The Impact of
Loss
- arxiv url: http://arxiv.org/abs/2001.11572v1
- Date: Thu, 30 Jan 2020 21:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:13:43.311993
- Title: Analytic Study of Double Descent in Binary Classification: The Impact of
Loss
- Title(参考訳): 二元分類における二重降下の解析的研究:損失の影響
- Authors: Ganesh Kini and Christos Thrampoulidis
- Abstract要約: DD現象は持続するが,ロジスティックな損失と比較していくつかの相違点が認められた。
さらに,DD曲線のトレーニングセットのサイズ依存性について検討した。
- 参考スコア(独自算出の注目度): 34.100845063076534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extensive empirical evidence reveals that, for a wide range of different
learning methods and datasets, the risk curve exhibits a double-descent (DD)
trend as a function of the model size. In a recent paper
[Zeyu,Kammoun,Thrampoulidis,2019] the authors studied binary linear
classification models and showed that the test error of gradient descent (GD)
with logistic loss undergoes a DD. In this paper, we complement these results
by extending them to GD with square loss. We show that the DD phenomenon
persists, but we also identify several differences compared to logistic loss.
This emphasizes that crucial features of DD curves (such as their transition
threshold and global minima) depend both on the training data and on the
learning algorithm. We further study the dependence of DD curves on the size of
the training set. Similar to our earlier work, our results are analytic: we
plot the DD curves by first deriving sharp asymptotics for the test error under
Gaussian features. Albeit simple, the models permit a principled study of DD
features, the outcomes of which theoretically corroborate related empirical
findings occurring in more complex learning tasks.
- Abstract(参考訳): 広範な実証的証拠は、幅広い異なる学習方法とデータセットに対して、リスク曲線がモデルサイズの関数として二重日光(dd)トレンドを示すことを示している。
最近の論文 (Zeyu, Kammoun, Thrampoulidis, 2019) において、著者らは二元線形分類モデルを研究し、ロジスティック損失を伴う勾配降下(GD)のテスト誤差がDDとなることを示した。
本稿では,これらの結果を正方形損失でgdに拡張して補う。
DD現象は持続するが,ロジスティックな損失と比較していくつかの相違点が認められた。
これはDD曲線の重要な特徴(遷移しきい値やグローバルミニマなど)がトレーニングデータと学習アルゴリズムの両方に依存することを強調している。
さらに,DD曲線のトレーニングセットのサイズ依存性について検討した。
私たちはまず、ガウス的特徴の下のテストエラーに対して鋭い漸近性を導出することでdd曲線をプロットします。
単純なことだが、このモデルはddの特徴を原理的に研究し、より複雑な学習タスクで起こる関連する経験的知見を理論的にコーポレートする。
関連論文リスト
- Curvature-Balanced Feature Manifold Learning for Long-Tailed
Classification [52.021899899683675]
尾のクラスは必ずしも学習が難しいわけではなく、サンプルバランスのデータセットでモデルバイアスが観測されていることを示す。
本稿では, 曲率バランスと平らな知覚多様体の学習を容易にするため, 曲率正規化を提案する。
我々の研究は、モデルバイアスに関する幾何学的分析の視点を開き、非長い尾とサンプルバランスのデータセットのモデルバイアスに注意を払うよう研究者に促す。
論文 参考訳(メタデータ) (2023-03-22T04:49:23Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - R2-AD2: Detecting Anomalies by Analysing the Raw Gradient [0.6299766708197883]
本稿では,R2-AD2と呼ばれる新しい半教師付き異常検出手法を提案する。
複数の訓練段階における勾配の時間分布を解析することにより,点異常を確実に検出する。
R2-AD2は純粋にデータ駆動方式で動作するため、異常検出の様々な重要なユースケースに容易に適用できる。
論文 参考訳(メタデータ) (2022-06-21T11:13:33Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。
近年の進歩により、観測データからDAGの有効最大点推定が可能となった。
線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文 参考訳(メタデータ) (2021-12-06T03:35:21Z) - Learning Curves for SGD on Structured Features [23.40229188549055]
本研究では,学習中におけるテストエラーを正確に予測するために,特徴空間内のデータの幾何学が重要であることを示す。
提案手法は,学習中のテストエラーを正確に予測するためには,特徴空間内のデータの幾何をモデル化することが極めて重要であることを示す。
論文 参考訳(メタデータ) (2021-06-04T20:48:20Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Understanding the Failure Modes of Out-of-Distribution Generalization [40.83290846983708]
経験的研究は、機械学習モデルは、トレーニング時間にのみラベルと急激な相関関係を持つ可能性のある背景のような特徴にしばしば依存していることを示唆している。
本研究は,学習が容易なタスクにおいても,モデルがこのように失敗する理由を説明することによって,この行動を引き起こす基本的な要因を同定する。
論文 参考訳(メタデータ) (2020-10-29T17:19:03Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - Towards Out-of-Distribution Detection with Divergence Guarantee in Deep
Generative Models [22.697643259435115]
深層生成モデルは、分布外データ(OOD)に対して、分布内データ(ID)よりも高い確率を割り当てることができる。
フローベースモデルにおける散逸を解析するための定理を証明している。
本稿では,2つのグループ異常検出手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T09:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。