論文の概要: Towards a theory of machine learning
- arxiv url: http://arxiv.org/abs/2004.09280v4
- Date: Fri, 12 Feb 2021 17:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 04:32:03.491272
- Title: Towards a theory of machine learning
- Title(参考訳): 機械学習の理論に向けて
- Authors: Vitaly Vanchurin
- Abstract要約: ニューラルネットワークを,(1)状態ベクトル,(2)入力投影,(3)出力投影,(4)重み行列,(5)バイアスベクトル,(6)活性化マップ,(7)損失関数からなるセグタプルとして定義する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We define a neural network as a septuple consisting of (1) a state vector,
(2) an input projection, (3) an output projection, (4) a weight matrix, (5) a
bias vector, (6) an activation map and (7) a loss function. We argue that the
loss function can be imposed either on the boundary (i.e. input and/or output
neurons) or in the bulk (i.e. hidden neurons) for both supervised and
unsupervised systems. We apply the principle of maximum entropy to derive a
canonical ensemble of the state vectors subject to a constraint imposed on the
bulk loss function by a Lagrange multiplier (or an inverse temperature
parameter). We show that in an equilibrium the canonical partition function
must be a product of two factors: a function of the temperature and a function
of the bias vector and weight matrix. Consequently, the total Shannon entropy
consists of two terms which represent respectively a thermodynamic entropy and
a complexity of the neural network. We derive the first and second laws of
learning: during learning the total entropy must decrease until the system
reaches an equilibrium (i.e. the second law), and the increment in the loss
function must be proportional to the increment in the thermodynamic entropy
plus the increment in the complexity (i.e. the first law). We calculate the
entropy destruction to show that the efficiency of learning is given by the
Laplacian of the total free energy which is to be maximized in an optimal
neural architecture, and explain why the optimization condition is better
satisfied in a deep network with a large number of hidden layers. The key
properties of the model are verified numerically by training a supervised
feedforward neural network using the method of stochastic gradient descent. We
also discuss a possibility that the entire universe on its most fundamental
level is a neural network.
- Abstract(参考訳): ニューラルネットワークを,(1)状態ベクトル,(2)入力投影,(3)出力投影,(4)重み行列,(5)バイアスベクトル,(6)活性化マップ,(7)損失関数からなるセグタプルとして定義する。
我々は、損失関数は、制御されたシステムと教師なしシステムの両方に対して境界(すなわち入力と出力のニューロン)またはバルク(すなわち隠されたニューロン)に課すことができると論じる。
最大エントロピーの原理を適用し、ラグランジュ乗算器(あるいは逆温度パラメータ)によってバルク損失関数に課される制約を受ける状態ベクトルの正準アンサンブルを導出する。
平衡において、正準分割関数は、温度の関数とバイアスベクトルと重み行列の関数の2つの因子の積でなければならないことを示す。
その結果、全シャノンエントロピーは、それぞれ熱力学的エントロピーとニューラルネットワークの複雑さを表す2つの項からなる。
学習の第一法則と第二法則を導出する:学習中、全エントロピーはシステムが平衡(すなわち第二法則)に達するまで減少しなければならず、損失関数の増分は熱力学的エントロピーの増分と複雑性の増分(すなわち第一法則)に比例しなければならない。
エントロピー破壊を計算し,学習効率が最適ニューラルネットワークアーキテクチャで最大化される全自由エネルギーのラプラシアンによって与えられることを示すとともに,多くの隠蔽層を有するディープネットワークにおいて最適化条件がより満足される理由を説明する。
確率勾配降下法を用いて教師付きフィードフォワードニューラルネットワークを訓練することにより,モデルの鍵特性を数値的に検証した。
また、宇宙全体が最も基本的なレベルでニューラルネットワークである可能性についても論じる。
関連論文リスト
- Designing a Linearized Potential Function in Neural Network Optimization Using Csiszár Type of Tsallis Entropy [0.0]
本稿では,Csisz'ar型Tsallisエントロピーを用いた線形化ポテンシャル関数を利用する枠組みを確立する。
新しい枠組みによって指数収束結果が導出できることが示される。
論文 参考訳(メタデータ) (2024-11-06T02:12:41Z) - Confidence Regulation Neurons in Language Models [91.90337752432075]
本研究では,大規模言語モデルが次世代の予測において不確実性を表現・規制するメカニズムについて検討する。
エントロピーニューロンは異常に高い重量ノルムを特徴とし、最終層正規化(LayerNorm)スケールに影響を与え、ロジットを効果的にスケールダウンさせる。
ここで初めて説明するトークン周波数ニューロンは、各トークンのログをそのログ周波数に比例して増加または抑制することで、出力分布をユニグラム分布から遠ざかる。
論文 参考訳(メタデータ) (2024-06-24T01:31:03Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Machine learning one-dimensional spinless trapped fermionic systems with
neural-network quantum states [1.6606527887256322]
ガウスポテンシャルを介して相互作用する完全に偏極された1次元フェルミオン系の基底状態特性を計算する。
我々は、波動関数のアンサッツとして、反対称人工ニューラルネットワーク(英語版)またはニューラル量子状態を用いる。
相互作用の兆候によって、非常に異なる基底状態が見つかる。
論文 参考訳(メタデータ) (2023-04-10T17:36:52Z) - Correlation between entropy and generalizability in a neural network [9.223853439465582]
We use Wang-Landau Mote Carlo algorithm to compute the entropy at a specified test accuracy。
この結果から,エントロピック力は一般化に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-07-05T12:28:13Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Aspects of Pseudo Entropy in Field Theories [0.0]
自由スカラー場の理論とXYスピンモデルを数値的に解析する。
これは多体系における擬エントロピーの基本的性質を明らかにする。
差の非正則性は、初期状態と最終状態が異なる量子相に属する場合にのみ破ることができる。
論文 参考訳(メタデータ) (2021-06-06T13:25:35Z) - Better Regularization for Sequential Decision Spaces: Fast Convergence
Rates for Nash, Correlated, and Team Equilibria [121.36609493711292]
大規模2プレーヤワイドフォームゲームの計算平衡問題に対する反復的な一階法の適用について検討する。
正則化器を用いて一階法をインスタンス化することにより、相関平衡と元アンティー座標のチーム平衡を計算するための最初の加速一階法を開発する。
論文 参考訳(メタデータ) (2021-05-27T06:10:24Z) - Action Redundancy in Reinforcement Learning [54.291331971813364]
遷移エントロピーはモデル依存遷移エントロピーと作用冗長性という2つの用語で記述できることを示す。
その結果,行動冗長性は強化学習の根本的な問題であることが示唆された。
論文 参考訳(メタデータ) (2021-02-22T19:47:26Z) - Pseudo Entropy in Free Quantum Field Theories [0.0]
我々は、場の理論において普遍であると推測する擬似エントロピーの2つの新しい性質を予想する。
数値計算の結果, 擬似エントロピーは新しい量子秩序パラメータとして機能することが示唆された。
論文 参考訳(メタデータ) (2020-11-19T04:25:18Z) - Variational Monte Carlo calculations of $\mathbf{A\leq 4}$ nuclei with
an artificial neural-network correlator ansatz [62.997667081978825]
光核の基底状態波動関数をモデル化するためのニューラルネットワーク量子状態アンサッツを導入する。
我々は、Aleq 4$核の結合エネルギーと点核密度を、上位のピオンレス実効場理論から生じるものとして計算する。
論文 参考訳(メタデータ) (2020-07-28T14:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。