論文の概要: Dyson Brownian motion and random matrix dynamics of weight matrices during learning
- arxiv url: http://arxiv.org/abs/2411.13512v1
- Date: Wed, 20 Nov 2024 18:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:42.406487
- Title: Dyson Brownian motion and random matrix dynamics of weight matrices during learning
- Title(参考訳): 学習中の重量行列のダイソンブラウン運動とランダム行列ダイナミクス
- Authors: Gert Aarts, Ouraman Hajizadeh, Biagio Lucini, Chanju Park,
- Abstract要約: まず、ダイソン・ブラウン運動を用いて、ダイナミクスを汎用的に記述できることを実証する。
レベルは学習率とミニバッチサイズに比例して示される。
次に,初期化時の固有値に対するマルテンコ・パストゥル分布から学習終了時の付加構造との組合せへの進化に続く変圧器の重み行列ダイナミクスについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: During training, weight matrices in machine learning architectures are updated using stochastic gradient descent or variations thereof. In this contribution we employ concepts of random matrix theory to analyse the resulting stochastic matrix dynamics. We first demonstrate that the dynamics can generically be described using Dyson Brownian motion, leading to e.g. eigenvalue repulsion. The level of stochasticity is shown to depend on the ratio of the learning rate and the mini-batch size, explaining the empirically observed linear scaling rule. We verify this linear scaling in the restricted Boltzmann machine. Subsequently we study weight matrix dynamics in transformers (a nano-GPT), following the evolution from a Marchenko-Pastur distribution for eigenvalues at initialisation to a combination with additional structure at the end of learning.
- Abstract(参考訳): トレーニング中は、確率勾配降下またはそのバリエーションを用いて機械学習アーキテクチャの重み行列を更新する。
このコントリビューションでは、結果の確率行列ダイナミクスを分析するためにランダム行列理論の概念を用いる。
まず、ダイソン・ブラウン運動を用いて、動力学が汎用的に記述できることを示し、eg固有値反発をもたらす。
確率性のレベルは学習率とミニバッチサイズに比例して示され、経験的に観察された線形スケーリング則を説明する。
この線形スケーリングを制限付きボルツマンマシンで検証する。
その後,変圧器(ナノGPT)における重み行列のダイナミクスについて検討し,初期化時の固有値に対するマルテンコ・パストゥル分布から学習終了時の付加構造への進化について検討した。
関連論文リスト
- Two-Point Deterministic Equivalence for Stochastic Gradient Dynamics in Linear Models [76.52307406752556]
ランダムリゾルダーの2点関数に対する新しい決定論的等価性を導出する。
勾配勾配を有する多種多様な高次元学習線形モデルの性能を統一的に導出する。
論文 参考訳(メタデータ) (2025-02-07T16:45:40Z) - Fokker-Planck to Callan-Symanzik: evolution of weight matrices under training [9.257985820123]
本稿では,Fokker-Planckを用いて,単純な2-bottleneck層自動エンコーダのボトルネック層における個々の重み行列の確率密度進化をシミュレートする。
また、カルン=シマンツィクやカルダル=パリ=チャン方程式のような物理的に関係のある偏微分方程式は、我々が持つ力学方程式から導出する。
論文 参考訳(メタデータ) (2025-01-16T16:54:40Z) - Random Matrix Theory for Stochastic Gradient Descent [0.0]
機械学習アルゴリズムにおける学習のダイナミクスを調べることは、アプローチが成功する方法と理由を理解する上で、最重要事項である。
ここでは、ダイソン・ブラウン運動の枠組みを用いて、ランダム行列理論からウェイト行列ダイナミクスを記述する。
学習速度(ステップサイズ)とバッチサイズの間の線形スケーリングルールを導出し、重み行列力学の普遍的および非普遍的側面を同定する。
論文 参考訳(メタデータ) (2024-12-29T15:21:13Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Stochastic weight matrix dynamics during learning and Dyson Brownian motion [0.0]
学習アルゴリズムにおける重み行列の更新はダイソン・ブラウン運動の枠組みに記述できることを示す。
ガス分布の普遍的特徴と非普遍的特徴を議論し,教師-学生モデルにおいて,Wigner surmise と Wigner 半円を明示的に同定する。
論文 参考訳(メタデータ) (2024-07-23T12:25:50Z) - Quantum trajectory entanglement in various unravelings of Markovian dynamics [0.0]
量子多体力学の古典シミュレーションのコストは、しばしばシステム内の絡み合いの量によって決定される。
オープン量子系力学を記述するマスター方程式を解く量子軌道法における絡み合いについて検討する。
論文 参考訳(メタデータ) (2024-04-18T13:19:26Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - Fluctuation-dissipation Type Theorem in Stochastic Linear Learning [2.8292841621378844]
ゆらぎ散逸定理(英: fluctuation-dissipation theorem, FDT)は、一階微分方程式の単純かつ強力な結果である。
入力ベクトルが学習対象となる線形行列によって出力ベクトルに写像される線形学習力学は、全バッチ勾配降下スキームを勾配降下のものと置き換えるときにランゲヴィン力学を忠実に模倣する検証版を持つ。
我々は,MNIST, CIFAR-10, CIFAR-10などの機械学習データセットにおける線形学習力学の一般化検証とその妥当性を導出する。
論文 参考訳(メタデータ) (2021-06-04T02:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。