論文の概要: How to explain grokking
- arxiv url: http://arxiv.org/abs/2412.18624v2
- Date: Wed, 01 Jan 2025 11:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 15:05:44.283323
- Title: How to explain grokking
- Title(参考訳): くちばしの説明法
- Authors: S. V. Kozyrev,
- Abstract要約: 学習におけるグルーキング(遅延一般化)の説明は、勾配ランゲヴィン力学(ブラウン運動)によってグルーキングをモデル化し、熱力学の考え方を適用することによって与えられる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explanation of grokking (delayed generalization) in learning is given by modeling grokking by the stochastic gradient Langevin dynamics (Brownian motion) and applying the ideas of thermodynamics.
- Abstract(参考訳): 学習におけるグルーキング(遅延一般化)の説明は、確率勾配ランゲヴィン力学(ブラウン運動)によりグルーキングをモデル化し、熱力学の考え方を適用することによって与えられる。
関連論文リスト
- NeuralGrok: Accelerate Grokking by Neural Gradient Transformation [54.65707216563953]
算術的タスクにおける変換器の一般化を高速化する最適勾配変換を学習する勾配に基づく手法であるNeuralGrokを提案する。
実験により,NeuralGrokは一般化を著しく加速することが示された。
また、NeuralGrokはより安定したトレーニングパラダイムを促進し、モデルの複雑さを常に低減します。
論文 参考訳(メタデータ) (2025-04-24T04:41:35Z) - Can Diffusion Models Disentangle? A Theoretical Perspective [52.360881354319986]
本稿では,拡散モデルが非交叉表現を学習する方法を理解するための新しい理論的枠組みを提案する。
我々は、一般的な非絡み付き潜在変数モデルの識別可能性条件を確立し、トレーニング力学を解析し、非絡み付き潜在部分空間モデルのサンプル複雑性境界を導出する。
論文 参考訳(メタデータ) (2025-03-31T20:46:18Z) - Stochastic weight matrix dynamics during learning and Dyson Brownian motion [0.0]
学習アルゴリズムにおける重み行列の更新はダイソン・ブラウン運動の枠組みに記述できることを示す。
ガス分布の普遍的特徴と非普遍的特徴を議論し,教師-学生モデルにおいて,Wigner surmise と Wigner 半円を明示的に同定する。
論文 参考訳(メタデータ) (2024-07-23T12:25:50Z) - Injecting Hamiltonian Architectural Bias into Deep Graph Networks for Long-Range Propagation [55.227976642410766]
グラフ内の情報拡散のダイナミクスは、グラフ表現学習に大きな影響を及ぼす重要なオープン問題である。
そこで我々は(ポート-)Hamiltonian Deep Graph Networksを紹介した。
我々は,非散逸的長距離伝播と非保守的行動の両方を,単一の理論的・実践的な枠組みで調整する。
論文 参考訳(メタデータ) (2024-05-27T13:36:50Z) - Coarse-graining conformational dynamics with multi-dimensional generalized Langevin equation: how, when, and why [5.4414562674321765]
データ駆動型ab initio Generalized Langevin equation (AIGLE) アプローチが開発され、高次元、不均一、粗粒状コンフォメーションダイナミクスを学習し、シミュレートする。
揺らぎ散逸定理に制約されたこのアプローチは、全原子分子動力学との動的整合性において粗い粒度のモデルを構築することができる。
論文 参考訳(メタデータ) (2024-05-20T20:14:09Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - Large-N dynamics of the spiked tensor model with random initial
conditions [0.0]
ランダムな初期条件を持つ偏微分方程式に対する経路積分法を開発する。
大型の$N$サドル点方程式はメロン型図式に支配されていることを示す。
論文 参考訳(メタデータ) (2022-08-26T11:14:21Z) - Thermodynamics-informed graph neural networks [0.09332987715848712]
幾何的および熱力学的帰納バイアスを用いて、結果の積分スキームの精度と一般化を改善することを提案する。
1つ目は、非ユークリッド幾何学的事前および置換不変ノードとエッジ更新関数を誘導するグラフニューラルネットワークである。
第2のバイアスは、より一般的な非保守的力学をモデル化するために、ハミルトン形式論の拡張である問題のジェネリック構造を学ぶことで強制される。
論文 参考訳(メタデータ) (2022-03-03T17:30:44Z) - Learning Neural Hamiltonian Dynamics: A Methodological Overview [109.40968389896639]
Hamiltonian dynamicsは、ニューラルネットワークに正確な長期予測、解釈可能性、データ効率の学習を与える。
我々は最近提案したハミルトンニューラルネットワークモデルについて、特に方法論に焦点を当てて体系的に調査した。
論文 参考訳(メタデータ) (2022-02-28T22:54:39Z) - Machine learning structure preserving brackets for forecasting
irreversible processes [0.0]
本報告では, 直交力学系からの散逸ブラケットのパラメータ化について述べる。
このプロセスは、エネルギーとエントロピーが保存され、非減少することが保証された一般化されたカシミールを学ぶ。
我々は、学習力学が「ブラックボックス」やペナルティベースのアプローチよりも頑健で、より一般化されていることを示す散逸システムのためのベンチマークを提供する。
論文 参考訳(メタデータ) (2021-06-23T18:27:59Z) - Learning Manifold Implicitly via Explicit Heat-Kernel Learning [63.354671267760516]
そこで,本研究では,熱カーネルを学習することで,多様体情報を暗黙的に取得する,暗黙的多様体学習の概念を提案する。
学習した熱カーネルは、データ生成のための深層生成モデル(DGM)やベイズ推論のためのスタイン変分勾配Descentなど、さまざまなカーネルベースの機械学習モデルに適用することができる。
論文 参考訳(メタデータ) (2020-10-05T03:39:58Z) - Abstract Dynamical Systems: Remarks on Symmetries and Reduction [77.34726150561087]
物理系の力学に対する代数的定式化は、古典的および量子的進化の双方に対する還元過程を記述するのにどう役立つかを示す。
この定式化によって、古典的および量子的進化の両方の還元過程を記述することができる。
論文 参考訳(メタデータ) (2020-08-26T17:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。