論文の概要: SETOL: A Semi-Empirical Theory of (Deep) Learning
- arxiv url: http://arxiv.org/abs/2507.17912v2
- Date: Sun, 27 Jul 2025 06:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 12:09:50.621204
- Title: SETOL: A Semi-Empirical Theory of (Deep) Learning
- Title(参考訳): SETOL: 深層学習の半経験的理論
- Authors: Charles H Martin, Christopher Hinrichs,
- Abstract要約: 本稿では,SETOL(SemiEmpirical Theory of Learning)を用いて,SETOL(State-Of-The-Art)ニューラルネット(NN)の性能について述べる。
- 参考スコア(独自算出の注目度): 4.371245698184159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a SemiEmpirical Theory of Learning (SETOL) that explains the remarkable performance of State-Of-The-Art (SOTA) Neural Networks (NNs). We provide a formal explanation of the origin of the fundamental quantities in the phenomenological theory of Heavy-Tailed Self-Regularization (HTSR): the heavy-tailed power-law layer quality metrics, alpha and alpha-hat. In prior work, these metrics have been shown to predict trends in the test accuracies of pretrained SOTA NN models, importantly, without needing access to either testing or training data. Our SETOL uses techniques from statistical mechanics as well as advanced methods from random matrix theory and quantum chemistry. The derivation suggests new mathematical preconditions for ideal learning, including a new metric, ERG, which is equivalent to applying a single step of the Wilson Exact Renormalization Group. We test the assumptions and predictions of SETOL on a simple 3-layer multilayer perceptron (MLP), demonstrating excellent agreement with the key theoretical assumptions. For SOTA NN models, we show how to estimate the individual layer qualities of a trained NN by simply computing the empirical spectral density (ESD) of the layer weight matrices and plugging this ESD into our SETOL formulas. Notably, we examine the performance of the HTSR alpha and the SETOL ERG layer quality metrics, and find that they align remarkably well, both on our MLP and on SOTA NNs.
- Abstract(参考訳): 本稿では,SETOL(SemiEmpirical Theory of Learning)を用いて,SETOL(State-Of-The-Art)ニューラルネット(NN)の性能について述べる。
本稿では,重鎖自己正則化(HTSR)の現象論的理論における基本量の起源を公式に説明する。
以前の研究で、これらの指標は事前訓練されたSOTA NNモデルのテスト精度の傾向を予測することが示されている。
我々のSETOLは統計力学の手法と、確率行列理論や量子化学の高度な手法を用いる。
この導出は、Wilson Exact Renormalization Groupの単一ステップに匹敵する新しい計量ERGを含む、理想学習のための新しい数学的前提条件を示唆している。
我々は,SETOLの仮定と予測を3層多層パーセプトロン(MLP)上で検証し,重要な理論的仮定と良好な一致を示した。
SOTA NN モデルでは,重み行列のスペクトル密度(ESD)を計算し,この ESD を SETOL 式に挿入することで,トレーニングされた NN の個々の層質を推定する方法を示す。
特に,HTSRαおよびSETOL ERG層の品質測定値の性能について検討し,MLPとSOTA NNの両方で極めてよく一致していることを確認した。
関連論文リスト
- Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Eigenspectrum Analysis of Neural Networks without Aspect Ratio Bias [4.503999875371634]
近年、重量行列の固有スペクトルによるディープニューラルネットワーク(DNN)の診断が活発な研究領域となっている。
重量行列のアスペクト比が重み度推定値に与える影響を考察する。
固定アスペクト比のサブサンプリングによる重み行列の正規化手法であるFARMSを提案する。
論文 参考訳(メタデータ) (2025-06-06T17:59:28Z) - Models of Heavy-Tailed Mechanistic Universality [62.107333654304014]
トレーニングニューラルネットワークにおける重み付け行動を引き起こす属性を探索するために,ランダム行列モデルのファミリーを提案する。
このモデルの下では、3つの独立した因子の組み合わせによって、尾翼の電力法則によるスペクトル密度が生じる。
ニューラルネットワークトレーニングの5段階以上において、ニューラルネットワークのスケーリング法則、軌道、および5段階以上の位相を含む重尾の出現に対する我々のモデルの影響について論じる。
論文 参考訳(メタデータ) (2025-06-04T00:55:01Z) - Pruning Deep Neural Networks via a Combination of the Marchenko-Pastur Distribution and Regularization [0.18641315013048293]
視覚変換器(ViT)は、画像分類のためのディープラーニング分野において、強力なモデルのクラスとして登場した。
重みと特異ベクトルのスパーシフィケーションに基づいて事前学習したDNNを刈り取るためのRandom Matrix Theory(RMT)に基づく新しい手法を提案する。
我々は,RTTを用いたプルーニングを用いて,精度1%未満の精度で,VTモデルのパラメータ数を30~50%削減できることを実証した。
論文 参考訳(メタデータ) (2025-03-02T05:25:20Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Crafting Heavy-Tails in Weight Matrix Spectrum without Gradient Noise [17.047793750451905]
現代のディープニューラルネットワーク(NN)のトレーニング戦略は、層重みのヘビーテール(HT)経験スペクトル密度(ESD)を誘導する。
雑音のない2層NNのESDにおける重みの「加工」に関する理論的インフォームド解析を行った。
本研究は,2層NNの一般化を促進する訓練の初期段階において,ESDのバルク+スパイクおよびHT形状における学習速度の役割を強調した。
論文 参考訳(メタデータ) (2024-06-07T05:51:57Z) - Overcoming systematic softening in universal machine learning interatomic potentials by fine-tuning [3.321322648845526]
機械学習原子間ポテンシャル(MLIP)は原子シミュレーションの新しいパラダイムを導入した。
近年,多種多様な資料データセットで事前学習したユニバーサルMLIP(uMLIP)が出現している。
分布外の複雑な原子環境に対する外挿性能はいまだに不明である。
論文 参考訳(メタデータ) (2024-05-11T22:30:47Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Information Bottleneck Analysis of Deep Neural Networks via Lossy Compression [37.69303106863453]
Information Bottleneck(IB)原則は、ディープニューラルネットワーク(DNN)のトレーニングプロセスを分析するための情報理論フレームワークを提供する。
本稿では,一般NNのICB解析を行うためのフレームワークを提案する。
また,MI力学の新たな特徴を明らかにするため,実規模に近いISB解析を行う。
論文 参考訳(メタデータ) (2023-05-13T21:44:32Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Learning and Generalization in Overparameterized Normalizing Flows [13.074242275886977]
正規化フロー(NF)は教師なし学習において重要なモデルのクラスである。
既存のNFモデルの大部分を含むNFのクラスでは、過度なパラメトリゼーションがトレーニングを損なうという理論的および実証的な証拠を提供する。
ネットワークが過度にパラメータ化されている場合、最小限の仮定の下で、制約のないNFが妥当なデータ分布を効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-19T17:11:42Z) - A Theoretical Framework for Target Propagation [75.52598682467817]
我々は、バックプロパゲーション(BP)の代替として人気があるが、まだ完全には理解されていないターゲット伝搬(TP)を解析する。
提案理論は,TPがガウス・ニュートン最適化と密接に関係していることを示し,BPとは大きく異なる。
我々は,フィードバックウェイトトレーニングを改善する新しいリコンストラクション損失を通じて,この問題に対する第1の解決策を提供する。
論文 参考訳(メタデータ) (2020-06-25T12:07:06Z) - Spherical Motion Dynamics: Learning Dynamics of Neural Network with
Normalization, Weight Decay, and SGD [105.99301967452334]
SMD (Spherical Motion Dynamics) と名付けられた, 正規化, 重崩壊 (WD) , SGD (運動量) を伴うニューラルネットワークの学習力学について述べる。
我々は,ImageNet や MSCOCO など様々なコンピュータビジョンタスクにおける仮定と理論的結果を標準設定で検証する。
論文 参考訳(メタデータ) (2020-06-15T14:16:33Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。