論文の概要: Tilting the Odds at the Lottery: the Interplay of Overparameterisation and Curricula in Neural Networks
- arxiv url: http://arxiv.org/abs/2406.01589v2
- Date: Tue, 08 Oct 2024 12:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:29:05.448884
- Title: Tilting the Odds at the Lottery: the Interplay of Overparameterisation and Curricula in Neural Networks
- Title(参考訳): ロッテリにおけるオッドの試行--ニューラルネットワークにおける過度パラメータ化とカリキュラムの相互作用
- Authors: Stefano Sarao Mannelli, Yaraslau Ivashynka, Andrew Saxe, Luca Saglietti,
- Abstract要約: カリキュラム学習が深層学習にはほとんど役に立たないことを示す。
特に,XOR-like Gaussian Mixture 問題における2層ネットワークのオンライン学習環境における相互作用について検討する。
- 参考スコア(独自算出の注目度): 8.324691721547202
- License:
- Abstract: A wide range of empirical and theoretical works have shown that overparameterisation can amplify the performance of neural networks. According to the lottery ticket hypothesis, overparameterised networks have an increased chance of containing a sub-network that is well-initialised to solve the task at hand. A more parsimonious approach, inspired by animal learning, consists in guiding the learner towards solving the task by curating the order of the examples, i.e. providing a curriculum. However, this learning strategy seems to be hardly beneficial in deep learning applications. In this work, we undertake an analytical study that connects curriculum learning and overparameterisation. In particular, we investigate their interplay in the online learning setting for a 2-layer network in the XOR-like Gaussian Mixture problem. Our results show that a high degree of overparameterisation -- while simplifying the problem -- can limit the benefit from curricula, providing a theoretical account of the ineffectiveness of curricula in deep learning.
- Abstract(参考訳): 幅広い経験的および理論的研究により、過パラメータ化がニューラルネットワークの性能を増幅できることが示されている。
抽選券仮説によれば、過度にパラメータ化されたネットワークは、目の前の課題を解決するために十分に初期化されているサブネットワークを含む可能性が高くなっている。
動物学習にインスパイアされたより微妙なアプローチは、例の順序、すなわちカリキュラムを提供することによって学習者をその課題に導くことである。
しかし、この学習戦略はディープラーニングアプリケーションにはほとんど役に立たないようだ。
本研究では,カリキュラム学習とオーバーパラメトリゼーションを結びつける分析的研究を行う。
特に,XOR-like Gaussian Mixture 問題における2層ネットワークのオンライン学習環境における相互作用について検討する。
以上の結果から,高次パラメータ化は,問題を単純化しつつもキュリキュラのメリットを制限し,ディープラーニングにおけるキュリキュラの非効率性を理論的に説明できることが示唆された。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Provable Guarantees for Neural Networks via Gradient Feature Learning [15.413985018920018]
本研究では,勾配降下法により学習した2層ネットワークの統一解析フレームワークを提案する。
このフレームワークは、特徴学習の原理を原型的勾配から中心とし、その有効性はいくつかの問題における応用によって実証されている。
論文 参考訳(メタデータ) (2023-10-19T01:45:37Z) - Knowledge Distillation Under Ideal Joint Classifier Assumption [2.3303316618075063]
本研究は「Ideal Joint Knowledge Distillation (IJCKD)」フレームワークを紹介する。
本フレームワークは,教師と学生のネットワーク間の効率的な知識伝達を支援する。
論文 参考訳(メタデータ) (2023-04-19T21:06:00Z) - On Learnability via Gradient Method for Two-Layer ReLU Neural Networks
in Teacher-Student Setting [41.60125423028092]
教師-学生回帰モデルにおける2層ReLUネットワークについて検討する。
特定の正規化と十分な過剰パラメータ化により、学生ネットワークは降下によってパラメータを識別できることを示す。
測度空間における疎大なグローバルな性質のグローバルなミニマを解析する。
論文 参考訳(メタデータ) (2021-06-11T09:05:41Z) - Statistical Mechanical Analysis of Catastrophic Forgetting in Continual
Learning with Teacher and Student Networks [5.209145866174911]
計算システムが絶えず変化する環境から学習すると、その過去の経験を急速に忘れてしまう。
教師-学生学習を用いて破滅的な忘れを解析するための理論的枠組みを提供する。
その結果,入力分布の類似度が小さく,対象関数の入出力関係が大きい場合,ネットワークは壊滅的な記憶を回避できることがわかった。
論文 参考訳(メタデータ) (2021-05-16T09:02:48Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Auxiliary Learning by Implicit Differentiation [54.92146615836611]
補助的なタスクによるニューラルネットワークのトレーニングは、関心のあるメインタスクのパフォーマンスを改善するための一般的なプラクティスである。
そこで我々は,暗黙の識別に基づく両課題を対象とした新しいフレームワークAuxiLearnを提案する。
まず、有用な補助関数が知られている場合、全ての損失を1つのコヒーレントな目的関数に組み合わせたネットワークの学習を提案する。
第二に、有用な補助タスクが知られていない場合、意味のある新しい補助タスクを生成するネットワークの学習方法について述べる。
論文 参考訳(メタデータ) (2020-06-22T19:35:07Z) - Relational Neural Machines [19.569025323453257]
本稿では,学習者のパラメータと一階論理に基づく推論を共同で学習するフレームワークを提案する。
ニューラルネットワークは、純粋な準記号学習の場合の古典的な学習結果とマルコフ論理ネットワークの両方を復元することができる。
適切なアルゴリズム解は、大規模な問題において学習と推論が引き出すことができるように考案されている。
論文 参考訳(メタデータ) (2020-02-06T10:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。