論文の概要: Soft Mode in the Dynamics of Over-realizable On-line Learning for Soft
Committee Machines
- arxiv url: http://arxiv.org/abs/2104.14546v1
- Date: Thu, 29 Apr 2021 17:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 12:45:26.623337
- Title: Soft Mode in the Dynamics of Over-realizable On-line Learning for Soft
Committee Machines
- Title(参考訳): ソフトコミッショナーマシンにおける超実現可能なオンライン学習のダイナミクスにおけるソフトモード
- Authors: Frederieke Richert, Roman Worschech, Bernd Rosenow
- Abstract要約: 勾配降下によって訓練された過パラメータ深層ニューラルネットワークは、実用的妥当性の多くのタスクの実行に成功している。
学生-教師のシナリオの文脈では、これはいわゆる過剰実現可能なケースに対応する。
過剰に実現可能なケースにおける2層ソフトコミッションマシンのオンライン学習では、完璧な学習へのアプローチがパワーローな方法で起こることが分かりました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over-parametrized deep neural networks trained by stochastic gradient descent
are successful in performing many tasks of practical relevance. One aspect of
over-parametrization is the possibility that the student network has a larger
expressivity than the data generating process. In the context of a
student-teacher scenario, this corresponds to the so-called over-realizable
case, where the student network has a larger number of hidden units than the
teacher. For on-line learning of a two-layer soft committee machine in the
over-realizable case, we find that the approach to perfect learning occurs in a
power-law fashion rather than exponentially as in the realizable case. All
student nodes learn and replicate one of the teacher nodes if teacher and
student outputs are suitably rescaled.
- Abstract(参考訳): 確率的勾配降下によって訓練された過剰パラメータのディープニューラルネットワークは、実用的妥当性の多くのタスクを実行することに成功している。
過度なパラメータ化の1つの側面は、学生ネットワークがデータ生成プロセスよりも大きな表現性を持つ可能性である。
生徒と教師のシナリオの文脈では、これはいわゆる、教師よりも学生ネットワークが隠れたユニットの数が多い、超実現可能なケースに相当する。
2層ソフトコミッショナーマシンのオンライン学習には, 実現可能な場合のように指数関数的にではなく, パワーロー方式で完全学習を行う方法が存在することがわかった。
すべての学生ノードは、教師と生徒の出力が適切に再スケールされた場合、教師ノードの1つを学び、複製する。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - RdimKD: Generic Distillation Paradigm by Dimensionality Reduction [16.977144350795488]
知識蒸留(KD)は、リソース制限されたデバイス上で高度なディープニューラルネットワークを実行する最も有望な圧縮技術のひとつである。
本研究では,DIMensionality Reduction KD(RdimKD)と呼ばれる,KDタスクの抽象的,汎用的なパラダイムを提案する。
RdimKD は次元の減少にのみ依存しており、L2 の損失に非常に小さな修正を加えている。
論文 参考訳(メタデータ) (2023-12-14T07:34:08Z) - How a student becomes a teacher: learning and forgetting through
Spectral methods [1.1470070927586018]
理論MLでは、教師パラダイムは実生活の授業の効果的なメタファーとしてしばしば用いられる。
本研究では、根本的に異なる最適化スキームを提案することにより、飛躍的に前進する。
このフレームワークで作業することで、教師の真の複雑さを反映した安定した学生のサブ構造を分離できる。
論文 参考訳(メタデータ) (2023-10-19T09:40:30Z) - Online Learning for the Random Feature Model in the Student-Teacher
Framework [0.0]
学生-教師の枠組みの文脈における過度なパラメトリゼーションについて検討する。
隠蔽層の大きさと入力次元の有限比に対して、学生は完全に一般化することはできない。
学生の隠蔽層の大きさが入力次元よりも指数関数的に大きい場合のみ、完全な一般化へのアプローチが可能である。
論文 参考訳(メタデータ) (2023-03-24T15:49:02Z) - UNIKD: UNcertainty-filtered Incremental Knowledge Distillation for Neural Implicit Representation [48.49860868061573]
最近の神経暗黙表現(NIR)は、3次元再構成と新しいビュー合成のタスクにおいて大きな成功を収めている。
それらは、異なるカメラビューからのシーンのイメージを、一度のトレーニングで利用できるようにする必要がある。
これは特に大規模なシーンと限られたデータストレージを持つシナリオでは高価である。
我々は、破滅的な問題を緩和するために、学生-教師の枠組みを設計する。
論文 参考訳(メタデータ) (2022-12-21T11:43:20Z) - Excess Risk of Two-Layer ReLU Neural Networks in Teacher-Student
Settings and its Superiority to Kernel Methods [58.44819696433327]
教師回帰モデルにおける2層ReLUニューラルネットワークのリスクについて検討する。
学生ネットワークは、どの解法よりも確実に優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-30T02:51:36Z) - On Learnability via Gradient Method for Two-Layer ReLU Neural Networks
in Teacher-Student Setting [41.60125423028092]
教師-学生回帰モデルにおける2層ReLUネットワークについて検討する。
特定の正規化と十分な過剰パラメータ化により、学生ネットワークは降下によってパラメータを識別できることを示す。
測度空間における疎大なグローバルな性質のグローバルなミニマを解析する。
論文 参考訳(メタデータ) (2021-06-11T09:05:41Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。