論文の概要: High-entropy Advantage in Neural Networks' Generalizability
- arxiv url: http://arxiv.org/abs/2503.13145v2
- Date: Thu, 17 Apr 2025 03:28:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 20:12:06.270342
- Title: High-entropy Advantage in Neural Networks' Generalizability
- Title(参考訳): ニューラルネットワークの一般化性における高エントロピーアドバンテージ
- Authors: Entao Yang, Xiaotian Zhang, Yue Shang, Ge Zhang,
- Abstract要約: 現代の機械学習における中心的な課題の1つは、ニューラルネットワークがトレーニングデータから学習した知識を、目に見えないテストデータに一般化する方法を理解することである。
ここでは、重みとバイアスが原子座標であり、損失関数がポテンシャルエネルギーである仮説分子系として、ニューラルネットワークへのボルツマンエントロピーの概念を紹介する。
分子シミュレーションアルゴリズムを用いることで、最大100万のパラメータを持つネットワーク上でのトレーニング損失とテスト精度(またはテスト損失)の両方の関数として、エントロピーランドスケープを4つの異なる機械学習タスクで計算する。
- 参考スコア(独自算出の注目度): 7.193952396909214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: One of the central challenges in modern machine learning is understanding how neural networks generalize knowledge learned from training data to unseen test data. While numerous empirical techniques have been proposed to improve generalization, a theoretical understanding of the mechanism of generalization remains elusive. Here we introduce the concept of Boltzmann entropy into neural networks by re-conceptualizing such networks as hypothetical molecular systems where weights and biases are atomic coordinates, and the loss function is the potential energy. By employing molecular simulation algorithms, we compute entropy landscapes as functions of both training loss and test accuracy (or test loss), on networks with up to 1 million parameters, across four distinct machine learning tasks: arithmetic question, real-world tabular data, image recognition, and language modeling. Our results reveal the existence of high-entropy advantage, wherein high-entropy network states generally outperform those reached via conventional training techniques like stochastic gradient descent. This entropy advantage provides a thermodynamic explanation for neural network generalizability: the generalizable states occupy a larger part of the parameter space than its non-generalizable analog at low train loss. Furthermore, we find this advantage more pronounced in narrower neural networks, indicating a need for different training optimizers tailored to different sizes of networks.
- Abstract(参考訳): 現代の機械学習における中心的な課題の1つは、ニューラルネットワークがトレーニングデータから学習した知識を、目に見えないテストデータに一般化する方法を理解することである。
一般化を改善するために多くの経験的手法が提案されているが、一般化のメカニズムに関する理論的理解はいまだ解明されていない。
ここでは、重みとバイアスが原子座標である仮説分子系や損失関数がポテンシャルエネルギーであるようなネットワークを再概念化し、ボルツマンエントロピーの概念をニューラルネットワークに導入する。
分子シミュレーションアルゴリズムを用いることで、最大100万のパラメータを持つネットワーク上で、エントロピーランドスケープをトレーニング損失とテスト精度(またはテスト損失)の両方の関数として計算する。
以上の結果から,高エントロピーのネットワーク状態は,確率勾配勾配のような従来の訓練手法よりも優れていたことが判明した。
このエントロピー優位性は、ニューラルネットワークの一般化可能性に関する熱力学的説明を与える: 一般化可能な状態は、低列車損失時の非一般化可能なアナログよりもパラメータ空間の大部分を占める。
さらに、より狭いニューラルネットワークでは、この利点がより顕著であることが分かり、異なるネットワークサイズに合わせたトレーニングオプティマイザの必要性が示唆された。
関連論文リスト
- Collective variables of neural networks: empirical time evolution and scaling laws [0.535514140374842]
実験的なニューラル・タンジェント・カーネルのスペクトル、特にエントロピーとトレースのスペクトルに対する特定の測定により、ニューラルネットワークが学習した表現についての洞察が得られることを示す。
結果は、トランスフォーマー、オートエンコーダ、グラフニューラルネットワーク、強化学習研究など、より複雑なネットワークで示される前に、まずテストケースで実証される。
論文 参考訳(メタデータ) (2024-10-09T21:37:14Z) - SGD method for entropy error function with smoothing l0 regularization for neural networks [3.108634881604788]
エントロピー誤差関数はニューラルネットワークで広く使われている。
本稿では,フィードフォワードニューラルネットワークの規則化を円滑に行うエントロピー関数を提案する。
ニューラルネットワークを効果的に学習し、より正確な予測を可能にするため、私たちの仕事は新しくなっています。
論文 参考訳(メタデータ) (2024-05-28T19:54:26Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - ANTN: Bridging Autoregressive Neural Networks and Tensor Networks for Quantum Many-Body Simulation [5.283885355422517]
我々は,テンソルネットワークと自己回帰ニューラルネットワークを橋渡しする新しいアーキテクチャであるAutoregressive NeuralNetを開発した。
自己回帰ニューラルネットワークは、正規化波動関数をパラメータ化し、テンソルネットワークと自己回帰ニューラルネットワークの表現性を一般化し、自己回帰ニューラルネットワークから様々な対称性を継承することを示す。
我々の研究は、量子多体物理シミュレーション、量子技術設計、人工知能における生成モデリングの新しい機会を開く。
論文 参考訳(メタデータ) (2023-04-04T17:54:14Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Correlation between entropy and generalizability in a neural network [9.223853439465582]
We use Wang-Landau Mote Carlo algorithm to compute the entropy at a specified test accuracy。
この結果から,エントロピック力は一般化に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-07-05T12:28:13Z) - Quasi-orthogonality and intrinsic dimensions as measures of learning and
generalisation [55.80128181112308]
ニューラルネットワークの特徴空間の次元性と準直交性は、ネットワークの性能差別と共同して機能する可能性があることを示す。
本研究は, ネットワークの最終的な性能と, ランダムに初期化された特徴空間の特性との関係を示唆する。
論文 参考訳(メタデータ) (2022-03-30T21:47:32Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Explainable artificial intelligence for mechanics: physics-informing
neural networks for constitutive models [0.0]
メカニクスにおいて、物理インフォームドニューラルネットワークの新しい活発な分野は、機械的知識に基づいてディープニューラルネットワークを設計することによって、この欠点を緩和しようとする。
本論文では,機械データに訓練されたニューラルネットワークを後述する物理形成型アプローチへの第一歩を提案する。
これにより、主成分分析はRNNの細胞状態における分散表現をデコレーションし、既知の基本関数との比較を可能にする。
論文 参考訳(メタデータ) (2021-04-20T18:38:52Z) - Geometry Perspective Of Estimating Learning Capability Of Neural
Networks [0.0]
本稿では,勾配勾配勾配を用いた最小二乗回帰(SGD)を一般化したニューラルネットワークの幅広いクラスについて考察する。
一般化能力とニューラルネットワークの安定性との関係についても論じている。
ニューラルネットワークの学習理論と高エネルギー物理の原理を関連付けることにより,人工ニューラルネットワークの観点からの複雑性・摩擦予想の変種を確立する。
論文 参考訳(メタデータ) (2020-11-03T12:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。