論文の概要: Dynamical versus Bayesian Phase Transitions in a Toy Model of
Superposition
- arxiv url: http://arxiv.org/abs/2310.06301v1
- Date: Tue, 10 Oct 2023 04:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 20:47:22.033098
- Title: Dynamical versus Bayesian Phase Transitions in a Toy Model of
Superposition
- Title(参考訳): おもちゃの重ね合わせモデルにおける動的相転移とベイズ相転移
- Authors: Zhongtian Chen, Edmund Lau, Jake Mendel, Susan Wei, Daniel Murfet
- Abstract要約: SLT(Singular Learning Theory)を用いた重ね合わせのトイモデル(TMS)における位相遷移について検討する。
本稿では,局所学習係数がベイズ後部の相転移をトレーニング標本サイズとして決定することを示す支持理論を提案する。
この図は、SGD学習軌跡が逐次学習機構の対象となるという予想を裏付けるものである。
- 参考スコア(独自算出の注目度): 2.3249139042158853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate phase transitions in a Toy Model of Superposition (TMS) using
Singular Learning Theory (SLT). We derive a closed formula for the theoretical
loss and, in the case of two hidden dimensions, discover that regular $k$-gons
are critical points. We present supporting theory indicating that the local
learning coefficient (a geometric invariant) of these $k$-gons determines phase
transitions in the Bayesian posterior as a function of training sample size. We
then show empirically that the same $k$-gon critical points also determine the
behavior of SGD training. The picture that emerges adds evidence to the
conjecture that the SGD learning trajectory is subject to a sequential learning
mechanism. Specifically, we find that the learning process in TMS, be it
through SGD or Bayesian learning, can be characterized by a journey through
parameter space from regions of high loss and low complexity to regions of low
loss and high complexity.
- Abstract(参考訳): 単数学習理論(slt)を用いたおもちゃの重ね合わせモデル(tms)における相転移について検討する。
理論的な損失に対する閉公式を導出し、2つの隠れ次元の場合、正則な $k$-gon が臨界点であることを発見する。
これらの$k$-ゴンの局所学習係数(幾何学的不変量)がベイズ後方の相転移をサンプルサイズを訓練する関数として決定することを示す支持理論を示す。
次に、同じ$k$-gon臨界点がSGDトレーニングの挙動を決定することを実証的に示す。
この図は、SGD学習軌跡が逐次学習機構の対象となるという予想を裏付けるものである。
特に,sgdやベイズ学習によるtmsの学習プロセスは,高損失と低複雑性の領域から低損失と高複雑性の領域までのパラメータ空間を旅することによって特徴づけられる。
関連論文リスト
- On Learning Latent Models with Multi-Instance Weak Supervision [57.18649648182171]
本稿では,複数の入力インスタンスに関連付けられた遷移関数$sigma$ラベルによって,教師信号が生成される弱い教師付き学習シナリオについて考察する。
我々の問題は、潜在的な構造学習やニューロシンボリックな統合など、さまざまな分野で満たされている。
論文 参考訳(メタデータ) (2023-06-23T22:05:08Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - SGD with Large Step Sizes Learns Sparse Features [22.959258640051342]
本稿では、ニューラルネットワークのトレーニングにおいて、グラディエント・ディフレッシュ(SGD)のダイナミクスの重要な特徴を紹介する。
より長いステップサイズでは、損失ランドスケープにおいてSGDは高く保たれ、暗黙の正規化がうまく機能し、スパース表現を見つけることができる。
論文 参考訳(メタデータ) (2022-10-11T11:00:04Z) - Hidden Progress in Deep Learning: SGD Learns Parities Near the
Computational Limit [36.17720004582283]
この研究は、$k$sparseパリティを$n$bitsで学習するレンズを通してそのような探索を行う。
データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。
論文 参考訳(メタデータ) (2022-07-18T17:55:05Z) - Transfer learning of phase transitions in percolation and directed
percolation [2.0342076109301583]
本研究では,非平衡・平衡相転移モデルの研究のために,転送学習に基づくドメイン対向ニューラルネットワーク(DANN)を適用した。
両モデルのDANN学習はモンテカルロシミュレーションに匹敵する信頼性の高い結果をもたらす。
論文 参考訳(メタデータ) (2021-12-31T15:24:09Z) - Model based Multi-agent Reinforcement Learning with Tensor
Decompositions [52.575433758866936]
本稿では、CPランクの低いテンソルとして遷移関数と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を考察する。
合成MDPの実験により、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-10-27T15:36:25Z) - Understanding Long Range Memory Effects in Deep Neural Networks [10.616643031188248]
深層学習において,SGD(textitstochastic gradient descent)が重要である。
本研究では, SGN はガウス的でも安定でもないと主張する。
そこで本研究では,SGDをFBM(textitfractional Brownian Motion)によって駆動されるSDEの離散化と見なすことができる。
論文 参考訳(メタデータ) (2021-05-05T13:54:26Z) - Direction Matters: On the Implicit Bias of Stochastic Gradient Descent
with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。
SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文 参考訳(メタデータ) (2020-11-04T21:07:52Z) - The Impact of the Mini-batch Size on the Variance of Gradients in
Stochastic Gradient Descent [28.148743710421932]
ミニバッチ勾配勾配(SGD)アルゴリズムは機械学習モデルのトレーニングに広く用いられている。
線形回帰および2層線形ネットワーク下でのSGDダイナミクスについて検討し,より深い線形ネットワークへの拡張を容易にする。
論文 参考訳(メタデータ) (2020-04-27T20:06:11Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。