論文の概要: Only Strict Saddles in the Energy Landscape of Predictive Coding Networks?
- arxiv url: http://arxiv.org/abs/2408.11979v2
- Date: Fri, 08 Nov 2024 16:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:43.853908
- Title: Only Strict Saddles in the Energy Landscape of Predictive Coding Networks?
- Title(参考訳): 予測符号化ネットワークのエネルギー景観における厳密なサドルのみ?
- Authors: Francesco Innocenti, El Mehdi Achour, Ryan Singh, Christopher L. Buckley,
- Abstract要約: 予測符号化(英: Predictive coding、PC)は、重みを更新する前にネットワーク活動に対して反復推論を行うエネルギーベースの学習アルゴリズムである。
ネットワーク活動の推測平衡におけるPCエネルギー景観の幾何について検討する。
- 参考スコア(独自算出の注目度): 2.499907423888049
- License:
- Abstract: Predictive coding (PC) is an energy-based learning algorithm that performs iterative inference over network activities before updating weights. Recent work suggests that PC can converge in fewer learning steps than backpropagation thanks to its inference procedure. However, these advantages are not always observed, and the impact of PC inference on learning is not theoretically well understood. Here, we study the geometry of the PC energy landscape at the inference equilibrium of the network activities. For deep linear networks, we first show that the equilibrated energy is simply a rescaled mean squared error loss with a weight-dependent rescaling. We then prove that many highly degenerate (non-strict) saddles of the loss including the origin become much easier to escape (strict) in the equilibrated energy. Our theory is validated by experiments on both linear and non-linear networks. Based on these and other results, we conjecture that all the saddles of the equilibrated energy are strict. Overall, this work suggests that PC inference makes the loss landscape more benign and robust to vanishing gradients, while also highlighting the fundamental challenge of scaling PC to deeper models.
- Abstract(参考訳): 予測符号化(英: Predictive coding、PC)は、重みを更新する前にネットワーク活動に対して反復推論を行うエネルギーベースの学習アルゴリズムである。
近年の研究では、PCは推論手順により、バックプロパゲーションよりも学習ステップが少ないことが示唆されている。
しかし、これらの利点は必ずしも観察されず、PC推論が学習に与える影響は理論的によく理解されていない。
本稿では,ネットワーク活動の推測平衡におけるPCエネルギー景観の幾何について検討する。
深い線形ネットワークの場合、平衡エネルギーは単に重みに依存した再スケーリングによる平均2乗誤差損失であることを示す。
そして、原点を含む多くの高度に縮退した(非制限的)サドルが、平衡エネルギーにおいてより容易に(制限的)脱出できることを証明した。
我々の理論は線形ネットワークと非線形ネットワークの両方の実験によって検証される。
これらの結果と他の結果に基づいて、平衡エネルギーのすべてのサドルは厳密であると予想する。
全体として、この研究は、PC推論が損失の状況をより良質にし、グラデーションを消滅させる一方で、PCをより深いモデルにスケールするという根本的な課題を浮き彫りにすることを示している。
関連論文リスト
- Disentangling the Causes of Plasticity Loss in Neural Networks [55.23250269007988]
可塑性の喪失は複数の独立したメカニズムに分解できることを示す。
種々の非定常学習タスクにおいて, 層正規化と重み劣化の組み合わせは, 可塑性維持に極めて有効であることを示す。
論文 参考訳(メタデータ) (2024-02-29T00:02:33Z) - The Law of Parsimony in Gradient Descent for Learning Deep Linear
Networks [34.85235641812005]
我々は、データが低次元構造を持つ場合、学習力学において驚くべき「パシモニーの法則」を明らかにする。
この学習力学の単純さは、効率的なトレーニングとディープネットワークのより良い理解の両方に重大な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-06-01T21:24:53Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - Random Weights Networks Work as Loss Prior Constraint for Image
Restoration [50.80507007507757]
「画像復元の優先制約としてランダムウェイトネットワークを機能させることができる」という信念を提示する。」
我々の信念は、計算コストのトレーニングやテストなしに、既存のネットワークに直接挿入することができる。
強調しておきたいのは、損失関数の領域を刺激し、現在無視されている状態を保存することです。
論文 参考訳(メタデータ) (2023-03-29T03:43:51Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Learning Energy Networks with Generalized Fenchel-Young Losses [34.46284877812228]
エネルギーに基づくモデル、すなわちエネルギーネットワークはエネルギー関数を最適化することで推論を行う。
学習エネルギーネットワークの自然損失構造であるFenchel-Young損失の一般化を提案する。
論文 参考訳(メタデータ) (2022-05-19T14:32:04Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Towards Understanding Learning in Neural Networks with Linear Teachers [31.849269592822296]
我々は,この学習問題をLaky ReLUアクティベートした2層ネットワークに対して,SGDがグローバルに最適化していることを証明する。
ネットワーク重みが2つの重みクラスターに収束すると、これは概線形決定境界となることを証明し、この現象を理論的に支持する。
論文 参考訳(メタデータ) (2021-01-07T13:21:24Z) - The Golden Ratio of Learning and Momentum [0.5076419064097732]
本稿では,シナプスにおけるニューラル信号処理による情報理論的損失関数を提案する。
すべての結果は、損失、学習率、モーメントが密接に関連していることを示している。
論文 参考訳(メタデータ) (2020-06-08T17:08:13Z) - Distance-Based Regularisation of Deep Networks for Fine-Tuning [116.71288796019809]
我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。
実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
論文 参考訳(メタデータ) (2020-02-19T16:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。