論文の概要: Dyson Brownian motion and random matrix dynamics of weight matrices during learning
- arxiv url: http://arxiv.org/abs/2411.13512v1
- Date: Wed, 20 Nov 2024 18:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:42.406487
- Title: Dyson Brownian motion and random matrix dynamics of weight matrices during learning
- Title(参考訳): 学習中の重量行列のダイソンブラウン運動とランダム行列ダイナミクス
- Authors: Gert Aarts, Ouraman Hajizadeh, Biagio Lucini, Chanju Park,
- Abstract要約: まず、ダイソン・ブラウン運動を用いて、ダイナミクスを汎用的に記述できることを実証する。
レベルは学習率とミニバッチサイズに比例して示される。
次に,初期化時の固有値に対するマルテンコ・パストゥル分布から学習終了時の付加構造との組合せへの進化に続く変圧器の重み行列ダイナミクスについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: During training, weight matrices in machine learning architectures are updated using stochastic gradient descent or variations thereof. In this contribution we employ concepts of random matrix theory to analyse the resulting stochastic matrix dynamics. We first demonstrate that the dynamics can generically be described using Dyson Brownian motion, leading to e.g. eigenvalue repulsion. The level of stochasticity is shown to depend on the ratio of the learning rate and the mini-batch size, explaining the empirically observed linear scaling rule. We verify this linear scaling in the restricted Boltzmann machine. Subsequently we study weight matrix dynamics in transformers (a nano-GPT), following the evolution from a Marchenko-Pastur distribution for eigenvalues at initialisation to a combination with additional structure at the end of learning.
- Abstract(参考訳): トレーニング中は、確率勾配降下またはそのバリエーションを用いて機械学習アーキテクチャの重み行列を更新する。
このコントリビューションでは、結果の確率行列ダイナミクスを分析するためにランダム行列理論の概念を用いる。
まず、ダイソン・ブラウン運動を用いて、動力学が汎用的に記述できることを示し、eg固有値反発をもたらす。
確率性のレベルは学習率とミニバッチサイズに比例して示され、経験的に観察された線形スケーリング則を説明する。
この線形スケーリングを制限付きボルツマンマシンで検証する。
その後,変圧器(ナノGPT)における重み行列のダイナミクスについて検討し,初期化時の固有値に対するマルテンコ・パストゥル分布から学習終了時の付加構造への進化について検討した。
関連論文リスト
- Truncated Gaussian basis approach for simulating many-body dynamics [0.0]
このアプローチは、フェルミオンガウス状態にまたがる縮小部分空間内で有効ハミルトニアンを構築し、近似固有状態と固有エネルギーを得るために対角化する。
対称性を利用して並列計算を行い、より大きなサイズでシステムをシミュレートすることができる。
クエンチ力学では,時間発展する部分空間の波動関数が時間的ダイナミクスのシミュレーションを促進することが観察される。
論文 参考訳(メタデータ) (2024-10-05T15:47:01Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間シーケンスデータを表現するために設計された深部力学モデルの新しいファミリを紹介する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
発振システム、ビデオ、実世界の状態シーケンス(MuJoCo)の実験は、学習可能なエネルギーベース以前のODEが既存のものより優れていることを示している。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Stochastic weight matrix dynamics during learning and Dyson Brownian motion [0.0]
学習アルゴリズムにおける重み行列の更新はダイソン・ブラウン運動の枠組みに記述できることを示す。
ガス分布の普遍的特徴と非普遍的特徴を議論し,教師-学生モデルにおいて,Wigner surmise と Wigner 半円を明示的に同定する。
論文 参考訳(メタデータ) (2024-07-23T12:25:50Z) - Quantum trajectory entanglement in various unravelings of Markovian dynamics [0.0]
量子多体力学の古典シミュレーションのコストは、しばしばシステム内の絡み合いの量によって決定される。
オープン量子系力学を記述するマスター方程式を解く量子軌道法における絡み合いについて検討する。
論文 参考訳(メタデータ) (2024-04-18T13:19:26Z) - Implicit Regularization of Gradient Flow on One-Layer Softmax Attention [10.060496091806694]
一層ソフトマックスアテンションモデルを用いた分類問題に対する指数損失の勾配流について検討した。
データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。
論文 参考訳(メタデータ) (2024-03-13T17:02:27Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - Fluctuation-dissipation Type Theorem in Stochastic Linear Learning [2.8292841621378844]
ゆらぎ散逸定理(英: fluctuation-dissipation theorem, FDT)は、一階微分方程式の単純かつ強力な結果である。
入力ベクトルが学習対象となる線形行列によって出力ベクトルに写像される線形学習力学は、全バッチ勾配降下スキームを勾配降下のものと置き換えるときにランゲヴィン力学を忠実に模倣する検証版を持つ。
我々は,MNIST, CIFAR-10, CIFAR-10などの機械学習データセットにおける線形学習力学の一般化検証とその妥当性を導出する。
論文 参考訳(メタデータ) (2021-06-04T02:54:26Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。