論文の概要: High-entropy Advantage in Neural Networks' Generalizability
- arxiv url: http://arxiv.org/abs/2503.13145v1
- Date: Mon, 17 Mar 2025 13:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:58.28916
- Title: High-entropy Advantage in Neural Networks' Generalizability
- Title(参考訳): ニューラルネットワークの一般化性における高エントロピーアドバンテージ
- Authors: Entao Yang, Xiaotian Zhang, Yue Shang, Ge Zhang,
- Abstract要約: 本稿では、ニューラルネットワークにエントロピーの概念を導入し、それを仮想物理系として再認識する。
ニューラルネットワークのエントロピーランドスケープを,4つの異なる機械学習タスクのトレーニング損失とテスト精度(あるいは損失)の関数として構築する。
以上の結果から,高エントロピー状態は古典的訓練によって到達した状態よりも優れていた。
- 参考スコア(独自算出の注目度): 7.193952396909214
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While the 2024 Nobel Prize in Physics ignites a worldwide discussion on the origins of neural networks and their foundational links to physics, modern machine learning research predominantly focuses on computational and algorithmic advancements, overlooking a picture of physics. Here we introduce the concept of entropy into neural networks by reconceptualizing them as hypothetical physical systems where each parameter is a non-interacting 'particle' within a one-dimensional space. By employing a Wang-Landau algorithms, we construct the neural networks' (with up to 1 million parameters) entropy landscapes as functions of training loss and test accuracy (or loss) across four distinct machine learning tasks, including arithmetic question, real-world tabular data, image recognition, and language modeling. Our results reveal the existence of \textit{entropy advantage}, where the high-entropy states generally outperform the states reached via classical training optimizer like stochastic gradient descent. We also find this advantage is more pronounced in narrower networks, indicating a need of different training optimizers tailored to different sizes of neural networks.
- Abstract(参考訳): 2024年のノーベル物理学賞は、ニューラルネットワークの起源とその物理への基礎的関連に関する世界的議論に火をつけたが、現代の機械学習の研究は主に計算とアルゴリズムの進歩に焦点を当てており、物理学の絵を見下ろしている。
ここでは、ニューラルネットワークにエントロピーの概念を導入し、1次元空間内で各パラメータが非相互作用的な「粒子」である仮説物理系として再認識する。
Wang-Landauアルゴリズムを用いることで、算術問題、実世界グラフデータ、画像認識、言語モデリングを含む4つの異なる機械学習タスクに対して、トレーニング損失とテスト精度(または損失)の関数として、ニューラルネットワーク(最大100万個のパラメータを持つ)エントロピーランドスケープを構築する。
以上の結果から,高エントロピー状態は,確率勾配降下のような古典的トレーニングオプティマイザによって達成された状態よりも優れていた。
この利点は、より狭いネットワークではより顕著であり、ニューラルネットワークのさまざまなサイズに合わせて調整された、異なるトレーニングオプティマイザの必要性も示している。
関連論文リスト
- Collective variables of neural networks: empirical time evolution and scaling laws [0.535514140374842]
実験的なニューラル・タンジェント・カーネルのスペクトル、特にエントロピーとトレースのスペクトルに対する特定の測定により、ニューラルネットワークが学習した表現についての洞察が得られることを示す。
結果は、トランスフォーマー、オートエンコーダ、グラフニューラルネットワーク、強化学習研究など、より複雑なネットワークで示される前に、まずテストケースで実証される。
論文 参考訳(メタデータ) (2024-10-09T21:37:14Z) - SGD method for entropy error function with smoothing l0 regularization for neural networks [3.108634881604788]
エントロピー誤差関数はニューラルネットワークで広く使われている。
本稿では,フィードフォワードニューラルネットワークの規則化を円滑に行うエントロピー関数を提案する。
ニューラルネットワークを効果的に学習し、より正確な予測を可能にするため、私たちの仕事は新しくなっています。
論文 参考訳(メタデータ) (2024-05-28T19:54:26Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - ANTN: Bridging Autoregressive Neural Networks and Tensor Networks for Quantum Many-Body Simulation [5.283885355422517]
我々は,テンソルネットワークと自己回帰ニューラルネットワークを橋渡しする新しいアーキテクチャであるAutoregressive NeuralNetを開発した。
自己回帰ニューラルネットワークは、正規化波動関数をパラメータ化し、テンソルネットワークと自己回帰ニューラルネットワークの表現性を一般化し、自己回帰ニューラルネットワークから様々な対称性を継承することを示す。
我々の研究は、量子多体物理シミュレーション、量子技術設計、人工知能における生成モデリングの新しい機会を開く。
論文 参考訳(メタデータ) (2023-04-04T17:54:14Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Correlation between entropy and generalizability in a neural network [9.223853439465582]
We use Wang-Landau Mote Carlo algorithm to compute the entropy at a specified test accuracy。
この結果から,エントロピック力は一般化に有効であることが示唆された。
論文 参考訳(メタデータ) (2022-07-05T12:28:13Z) - Quasi-orthogonality and intrinsic dimensions as measures of learning and
generalisation [55.80128181112308]
ニューラルネットワークの特徴空間の次元性と準直交性は、ネットワークの性能差別と共同して機能する可能性があることを示す。
本研究は, ネットワークの最終的な性能と, ランダムに初期化された特徴空間の特性との関係を示唆する。
論文 参考訳(メタデータ) (2022-03-30T21:47:32Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Explainable artificial intelligence for mechanics: physics-informing
neural networks for constitutive models [0.0]
メカニクスにおいて、物理インフォームドニューラルネットワークの新しい活発な分野は、機械的知識に基づいてディープニューラルネットワークを設計することによって、この欠点を緩和しようとする。
本論文では,機械データに訓練されたニューラルネットワークを後述する物理形成型アプローチへの第一歩を提案する。
これにより、主成分分析はRNNの細胞状態における分散表現をデコレーションし、既知の基本関数との比較を可能にする。
論文 参考訳(メタデータ) (2021-04-20T18:38:52Z) - Geometry Perspective Of Estimating Learning Capability Of Neural
Networks [0.0]
本稿では,勾配勾配勾配を用いた最小二乗回帰(SGD)を一般化したニューラルネットワークの幅広いクラスについて考察する。
一般化能力とニューラルネットワークの安定性との関係についても論じている。
ニューラルネットワークの学習理論と高エネルギー物理の原理を関連付けることにより,人工ニューラルネットワークの観点からの複雑性・摩擦予想の変種を確立する。
論文 参考訳(メタデータ) (2020-11-03T12:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。