論文の概要: Analytic Study of Double Descent in Binary Classification: The Impact of
Loss
- arxiv url: http://arxiv.org/abs/2001.11572v1
- Date: Thu, 30 Jan 2020 21:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:13:43.311993
- Title: Analytic Study of Double Descent in Binary Classification: The Impact of
Loss
- Title(参考訳): 二元分類における二重降下の解析的研究:損失の影響
- Authors: Ganesh Kini and Christos Thrampoulidis
- Abstract要約: DD現象は持続するが,ロジスティックな損失と比較していくつかの相違点が認められた。
さらに,DD曲線のトレーニングセットのサイズ依存性について検討した。
- 参考スコア(独自算出の注目度): 34.100845063076534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extensive empirical evidence reveals that, for a wide range of different
learning methods and datasets, the risk curve exhibits a double-descent (DD)
trend as a function of the model size. In a recent paper
[Zeyu,Kammoun,Thrampoulidis,2019] the authors studied binary linear
classification models and showed that the test error of gradient descent (GD)
with logistic loss undergoes a DD. In this paper, we complement these results
by extending them to GD with square loss. We show that the DD phenomenon
persists, but we also identify several differences compared to logistic loss.
This emphasizes that crucial features of DD curves (such as their transition
threshold and global minima) depend both on the training data and on the
learning algorithm. We further study the dependence of DD curves on the size of
the training set. Similar to our earlier work, our results are analytic: we
plot the DD curves by first deriving sharp asymptotics for the test error under
Gaussian features. Albeit simple, the models permit a principled study of DD
features, the outcomes of which theoretically corroborate related empirical
findings occurring in more complex learning tasks.
- Abstract(参考訳): 広範な実証的証拠は、幅広い異なる学習方法とデータセットに対して、リスク曲線がモデルサイズの関数として二重日光(dd)トレンドを示すことを示している。
最近の論文 (Zeyu, Kammoun, Thrampoulidis, 2019) において、著者らは二元線形分類モデルを研究し、ロジスティック損失を伴う勾配降下(GD)のテスト誤差がDDとなることを示した。
本稿では,これらの結果を正方形損失でgdに拡張して補う。
DD現象は持続するが,ロジスティックな損失と比較していくつかの相違点が認められた。
これはDD曲線の重要な特徴(遷移しきい値やグローバルミニマなど)がトレーニングデータと学習アルゴリズムの両方に依存することを強調している。
さらに,DD曲線のトレーニングセットのサイズ依存性について検討した。
私たちはまず、ガウス的特徴の下のテストエラーに対して鋭い漸近性を導出することでdd曲線をプロットします。
単純なことだが、このモデルはddの特徴を原理的に研究し、より複雑な学習タスクで起こる関連する経験的知見を理論的にコーポレートする。
関連論文リスト
- Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - Dataset Distillation from First Principles: Integrating Core Information Extraction and Purposeful Learning [10.116674195405126]
我々は、基礎となる最適化問題の正確な特徴付けは、関心の応用に関連する推論タスクを指定しなければならないと論じる。
我々の形式化は、様々なモデリング環境にまたがるDDの新たな応用を明らかにします。
現代の環境において重要な2つのケーススタディについて数値的な結果を示す。
論文 参考訳(メタデータ) (2024-09-02T18:11:15Z) - Multiple Descents in Unsupervised Learning: The Role of Noise, Domain Shift and Anomalies [14.399035468023161]
教師なし学習における二重の子孫の存在について検討するが、これはほとんど注目されず、まだ完全には理解されていない領域である。
我々は、合成データと実データを用いて、様々なアプリケーションに対してモデルワイド、エポックワイド、サンプルワイドの二重降下を識別する。
論文 参考訳(メタデータ) (2024-06-17T16:24:23Z) - PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning [49.60634126342945]
Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。
近年の研究では、CADを用いたトレーニングが、他の重要な文脈情報を無視しながら、モデルが修正機能に過度にフォーカスする可能性があることが示されている。
我々は、対実的手がかりの学習に加えて、グローバルな特徴アライメントを促進するために、対照的な学習を採用する。
論文 参考訳(メタデータ) (2024-06-09T07:29:55Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。
近年の進歩により、観測データからDAGの有効最大点推定が可能となった。
線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文 参考訳(メタデータ) (2021-12-06T03:35:21Z) - Learning Curves for SGD on Structured Features [23.40229188549055]
本研究では,学習中におけるテストエラーを正確に予測するために,特徴空間内のデータの幾何学が重要であることを示す。
提案手法は,学習中のテストエラーを正確に予測するためには,特徴空間内のデータの幾何をモデル化することが極めて重要であることを示す。
論文 参考訳(メタデータ) (2021-06-04T20:48:20Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。