論文の概要: Perspective: A Phase Diagram for Deep Learning unifying Jamming, Feature
Learning and Lazy Training
- arxiv url: http://arxiv.org/abs/2012.15110v1
- Date: Wed, 30 Dec 2020 11:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 05:58:39.706402
- Title: Perspective: A Phase Diagram for Deep Learning unifying Jamming, Feature
Learning and Lazy Training
- Title(参考訳): 視点: ジャミング, 特徴学習, 遅延学習を一体化する深層学習のためのフェーズダイアグラム
- Authors: Mario Geiger, Leonardo Petrini and Matthieu Wyart
- Abstract要約: ディープラーニングアルゴリズムは、画像認識やgoプレイなど、さまざまなタスクにおける技術革命の責任を負う。
しかし、なぜ働くのかは分かっていない。
最終的に、彼らは高い次元に横たわるデータを分類することに成功しました。
我々は、異なる学習体制をフェーズダイアグラムにまとめることができると論じる。
- 参考スコア(独自算出の注目度): 4.318555434063275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning algorithms are responsible for a technological revolution in a
variety of tasks including image recognition or Go playing. Yet, why they work
is not understood. Ultimately, they manage to classify data lying in high
dimension -- a feat generically impossible due to the geometry of high
dimensional space and the associated curse of dimensionality. Understanding
what kind of structure, symmetry or invariance makes data such as images
learnable is a fundamental challenge. Other puzzles include that (i) learning
corresponds to minimizing a loss in high dimension, which is in general not
convex and could well get stuck bad minima. (ii) Deep learning predicting power
increases with the number of fitting parameters, even in a regime where data
are perfectly fitted. In this manuscript, we review recent results elucidating
(i,ii) and the perspective they offer on the (still unexplained) curse of
dimensionality paradox. We base our theoretical discussion on the $(h,\alpha)$
plane where $h$ is the network width and $\alpha$ the scale of the output of
the network at initialization, and provide new systematic measures of
performance in that plane for MNIST and CIFAR 10. We argue that different
learning regimes can be organized into a phase diagram. A line of critical
points sharply delimits an under-parametrised phase from an over-parametrized
one. In over-parametrized nets, learning can operate in two regimes separated
by a smooth cross-over. At large initialization, it corresponds to a kernel
method, whereas for small initializations features can be learnt, together with
invariants in the data. We review the properties of these different phases, of
the transition separating them and some open questions. Our treatment
emphasizes analogies with physical systems, scaling arguments and the
development of numerical observables to quantitatively test these results
empirically.
- Abstract(参考訳): ディープラーニングアルゴリズムは、画像認識やgoプレイなど、さまざまなタスクにおける技術革命の責任を負う。
しかし、なぜ働くのかは分かっていない。
最終的には、高次元の空間の幾何学とそれに伴う次元の呪いのために、一般的に不可能である高次元のデータを分類する。
どのような構造、対称性、不変性が、画像などのデータを学習可能にするかを理解することは、根本的な課題である。
他のパズルとしては、(i)学習は高次元の損失を最小化することに対応しており、これは一般に凸ではなく、悪いミニマに陥る可能性がある。
(ii)データが完全に適合している状況でも、適合パラメータの数によってパワーを予測するディープラーニングは増加する。
本書では,最近の研究成果を概観し,それらが与える(まだ説明されていない)次元パラドックスの呪いについて考察する。
我々は、$(h,\alpha)$平面で、$h$はネットワーク幅、$\alpha$は初期化時のネットワーク出力のスケールであり、MNISTとCIFAR 10のために、その平面におけるパフォーマンスの新たな体系的な尺度を提供する。
我々は、異なる学習体制をフェーズダイアグラムにまとめることができると論じる。
臨界点の直線は、過小パラメータの位相から過小パラメータの位相を鋭く除く。
過パラメータのネットでは、学習は滑らかなクロスオーバーによって分離された2つのレジームで動作することができる。
大規模な初期化ではカーネルメソッドに対応し、小さな初期化ではデータの不変量とともに学習することができる。
我々は、これらの異なる相の性質、遷移の相違、そしていくつかのオープンな疑問についてレビューする。
本治療は,物理システムとの類似性を強調し,議論をスケーリングし,これらの結果を定量的に評価するための数値観測器の開発を行った。
関連論文リスト
- Disentangled Representation Learning with the Gromov-Monge Gap [65.73194652234848]
乱れのないデータから歪んだ表現を学習することは、機械学習における根本的な課題である。
本稿では,2次最適輸送に基づく非交叉表現学習手法を提案する。
提案手法の有効性を4つの標準ベンチマークで示す。
論文 参考訳(メタデータ) (2024-07-10T16:51:32Z) - Repetita Iuvant: Data Repetition Allows SGD to Learn High-Dimensional Multi-Index Functions [20.036783417617652]
勾配に基づくアルゴリズムを用いて学習した2層浅層ニューラルネットワークのトレーニング力学について検討する。
理想化シングルパス勾配勾配学習シナリオの簡単な修正により,その計算効率が大幅に向上することを示す。
この結果から,ネットワークが事前処理なしでデータから関連構造を学習できることが示唆された。
論文 参考訳(メタデータ) (2024-05-24T11:34:31Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Synergy and Symmetry in Deep Learning: Interactions between the Data,
Model, and Inference Algorithm [33.59320315666675]
我々は三重項(D,M,I)を統合システムとして研究し、次元の呪いを軽減する重要なシナジーを特定する。
これらの対称性がデータ分布と互換性がある場合、学習は最も効率的であることがわかった。
論文 参考訳(メタデータ) (2022-07-11T04:08:21Z) - Learning sparse features can lead to overfitting in neural networks [9.2104922520782]
機能学習は遅延トレーニングよりもパフォーマンスが良くないことを示す。
空間性は異方性データの学習に不可欠であることが知られているが、対象関数が一定あるいは滑らかな場合に有害である。
論文 参考訳(メタデータ) (2022-06-24T14:26:33Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - High-dimensional separability for one- and few-shot learning [58.8599521537]
この作業は、実用的な質問、人工知能(AI)エラーの修正によって進められている。
特殊な外部デバイスである修正器が開発されている。従来のAIシステムを変更することなく、迅速かつ非イテレーティブなシステム修正を提供する必要がある。
AIシステムの新しいマルチコレクタが提示され、深層畳み込みニューラルネットワークによってエラーを予測し、新しいクラスのオブジェクトを学習する例が紹介される。
論文 参考訳(メタデータ) (2021-06-28T14:58:14Z) - Unsupervised mapping of phase diagrams of 2D systems from infinite
projected entangled-pair states via deep anomaly detection [0.0]
本研究では, 2次元量子多体系の位相図を, 事前の物理知識を持たない方法でマップアウトする方法を示す。
ベンチマークとして、2次元フラストレーションされた2層ハイゼンベルクモデルの位相図を解析する。
遷移ラインの質的な画像を得るためには、コスト効率のよい単純な更新最適化からのデータを使用することが十分であることを示す。
論文 参考訳(メタデータ) (2021-05-19T12:19:20Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。