Fugu-MT 論文翻訳(概要): Models of Heavy-Tailed Mechanistic Universality

論文の概要: Models of Heavy-Tailed Mechanistic Universality

arxiv url: http://arxiv.org/abs/2506.03470v1
Date: Wed, 04 Jun 2025 00:55:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.096389
Title: Models of Heavy-Tailed Mechanistic Universality
Title（参考訳）: 重り付き機械的普遍性のモデル
Authors: Liam Hodgkinson, Zhichao Wang, Michael W. Mahoney,
Abstract要約: トレーニングニューラルネットワークにおける重み付け行動を引き起こす属性を探索するために,ランダム行列モデルのファミリーを提案する。このモデルの下では、3つの独立した因子の組み合わせによって、尾翼の電力法則によるスペクトル密度が生じる。ニューラルネットワークトレーニングの5段階以上において、ニューラルネットワークのスケーリング法則、軌道、および5段階以上の位相を含む重尾の出現に対する我々のモデルの影響について論じる。
参考スコア（独自算出の注目度）: 62.107333654304014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent theoretical and empirical successes in deep learning, including the celebrated neural scaling laws, are punctuated by the observation that many objects of interest tend to exhibit some form of heavy-tailed or power law behavior. In particular, the prevalence of heavy-tailed spectral densities in Jacobians, Hessians, and weight matrices has led to the introduction of the concept of heavy-tailed mechanistic universality (HT-MU). Multiple lines of empirical evidence suggest a robust correlation between heavy-tailed metrics and model performance, indicating that HT-MU may be a fundamental aspect of deep learning efficacy. Here, we propose a general family of random matrix models -- the high-temperature Marchenko-Pastur (HTMP) ensemble -- to explore attributes that give rise to heavy-tailed behavior in trained neural networks. Under this model, spectral densities with power laws on (upper and lower) tails arise through a combination of three independent factors (complex correlation structures in the data; reduced temperatures during training; and reduced eigenvector entropy), appearing as an implicit bias in the model structure, and they can be controlled with an "eigenvalue repulsion" parameter. Implications of our model on other appearances of heavy tails, including neural scaling laws, optimizer trajectories, and the five-plus-one phases of neural network training, are discussed.
Abstract（参考訳）: ニューラルスケーリング法則を含む近年のディープラーニングの理論的および実証的な成功は、多くの関心の対象が何らかの形で重み付けされた、あるいは力の法的な行動を示す傾向にあるという観察によって定式化されている。特に、ヤコビアン、ヘッセン、および重量行列における重尾スペクトル密度の有意性は、重尾力学普遍性(HT-MU)の概念の導入につながっている。複数の経験的証拠は、重み付きメトリクスとモデル性能の堅牢な相関を示し、HT-MUがディープラーニングの有効性の基本的な側面であることを示している。本稿では,高温のマルテンコ・パスタンブル(HTMP)アンサンブルであるランダム行列モデルの一般的なファミリーを提案する。このモデルの下では、3つの独立した因子(データの複雑な相関構造、訓練中の温度の低下、固有ベクトルエントロピーの減少)の組み合わせによって、(上と下)尾の電力法則を持つスペクトル密度が生まれ、モデル構造に暗黙のバイアスとして現れる。ニューラルネットワークトレーニングの5段階以上において、ニューラルネットワークのスケーリング法則、オプティマイザ軌道、および5段階以上の位相を含む重尾の出現に対する我々のモデルの影響について論じる。

関連論文リスト

Cognitive Activation and Chaotic Dynamics in Large Language Models: A Quasi-Lyapunov Analysis of Reasoning Mechanisms [6.375329734462518]
本稿では,大規模言語モデルの推論機構の本質を明らかにする「認知活性化理論」を提案する。実験により、モデルの情報の蓄積は非線形指数法則に従っており、Multilayer Perceptron (MLP) は最終的な出力においてより高い割合を占めることが示された。本研究は, LLMの推論の解釈可能性に関するカオス理論の枠組みを提供し, モデル設計における創造性と信頼性のバランスをとるための潜在的経路を明らかにする。
論文参考訳（メタデータ） (2025-03-15T08:15:10Z)
Explosive neural networks via higher-order interactions in curved statistical manifolds [43.496401697112695]
曲線ニューラルネットワークは,パラメータ数に制限のあるプロトタイプモデルのクラスとして導入する。これらの曲線ニューラルネットワークは、メモリ検索を高速化する自己制御プロセスを実装している。強磁性相とスピングラス相の境界付近のレプリカ手法を用いて, メモリ・検索能力の解析を行った。
論文参考訳（メタデータ） (2024-08-05T09:10:29Z)
Relational Learning in Pre-Trained Models: A Theory from Hypergraph Recovery Perspective [60.64922606733441]
我々は,関係学習をハイパーグラフリカバリとして形式化する数学的モデルを導入し,基礎モデル(FM)の事前学習について検討する。我々のフレームワークでは、世界はハイパーグラフとして表現され、データはハイパーエッジからランダムなサンプルとして抽象化される。我々は、このハイパーグラフを復元するための事前学習モデル(PTM)の有効性を理論的に検証し、ミニマックスに近い最適スタイルでデータ効率を解析する。
論文参考訳（メタデータ） (2024-06-17T06:20:39Z)
The twin peaks of learning neural networks [3.382017614888546]
近年の研究では、ニューラルネットワークの一般化誤差に対する二重発光現象の存在が示されている。この現象とニューラルネットワークで表される関数の複雑さと感度の増大との関係について検討する。
論文参考訳（メタデータ） (2024-01-23T10:09:14Z)
A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文参考訳（メタデータ） (2023-11-13T01:48:08Z)
Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文参考訳（メタデータ） (2021-10-26T14:26:25Z)
Tensor networks for unsupervised machine learning [9.897828174118974]
本稿では,量子多体物理学の行列状態と機械学習の自己回帰モデルを組み合わせたテンソルネットワークモデルであるAutoregressive Matrix Product States(AMPS)を提案する。提案手法は,既存のテンソルネットワークモデルや制限されたボルツマンマシンよりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-24T12:51:00Z)
On Energy-Based Models with Overparametrized Shallow Neural Networks [44.74000986284978]
エネルギーベースモデル(EBM)は、ジェネレーションモデリングの強力なフレームワークです。この研究では、浅いニューラルネットワークに焦点を当てます。我々は、いわゆる「アクティブ」体制で訓練されたモデルが、関連する「怠慢」またはカーネル体制に対して統計的に有利であることを示す。
論文参考訳（メタデータ） (2021-04-15T15:34:58Z)
Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。分散による離散乗法雑音のパラメータによく現れることを示す。最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文参考訳（メタデータ） (2020-06-11T09:58:01Z)
Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文参考訳（メタデータ） (2020-02-20T15:43:02Z)
Learning the Ising Model with Generative Neural Networks [0.0]
ボルツマンマシン(RBM)と変分オートエンコーダ(VAE)の表現特性について検討する。その結果, RBM と畳み込み VAE は, 磁化, エネルギー, スピンスピン相関の温度依存性を捉えることが可能であることが示唆された。また, VAEの畳み込み層はスピン相関をモデル化するのに重要であるのに対し, RBMは畳み込みフィルタを使わずに類似あるいはさらに優れた性能を実現する。
論文参考訳（メタデータ） (2020-01-15T15:04:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。