Fugu-MT 論文翻訳(概要): $μ$PC: Scaling Predictive Coding to 100+ Layer Networks

論文の概要: $μ$PC: Scaling Predictive Coding to 100+ Layer Networks

arxiv url: http://arxiv.org/abs/2505.13124v1
Date: Mon, 19 May 2025 13:54:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.628047
Title: $μ$PC: Scaling Predictive Coding to 100+ Layer Networks
Title（参考訳）: $μ$PC: 100以上のレイヤネットワークへの予測符号化のスケーリング
Authors: Francesco Innocenti, El Mehdi Achour, Christopher L. Buckley,
Abstract要約: 非常に深いネットワーク上で"$mu$PC"を確実にトレーニングできることを示します。我々の結果は、他のローカルアルゴリズムに影響を及ぼし、畳み込みおよびトランスフォーマーアーキテクチャに拡張できる可能性がある。
参考スコア（独自算出の注目度）: 2.7309692684728617
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The biological implausibility of backpropagation (BP) has motivated many alternative, brain-inspired algorithms that attempt to rely only on local information, such as predictive coding (PC) and equilibrium propagation. However, these algorithms have notoriously struggled to train very deep networks, preventing them from competing with BP in large-scale settings. Indeed, scaling PC networks (PCNs) has recently been posed as a challenge for the community (Pinchetti et al., 2024). Here, we show that 100+ layer PCNs can be trained reliably using a Depth-$\mu$P parameterisation (Yang et al., 2023; Bordelon et al., 2023) which we call "$\mu$PC". Through an extensive analysis of the scaling behaviour of PCNs, we reveal several pathologies that make standard PCNs difficult to train at large depths. We then show that, despite addressing only some of these instabilities, $\mu$PC allows stable training of very deep (up to 128-layer) residual networks on simple classification tasks with competitive performance and little tuning compared to current benchmarks. Moreover, $\mu$PC enables zero-shot transfer of both weight and activity learning rates across widths and depths. Our results have implications for other local algorithms and could be extended to convolutional and transformer architectures. Code for $\mu$PC is made available as part of a JAX library for PCNs at https://github.com/thebuckleylab/jpc (Innocenti et al., 2024).
Abstract（参考訳）: バックプロパゲーション(BP)の生物学的不確実性は、予測符号化(PC)や平衡伝播のような局所的な情報にのみ依存しようとする、脳にインスパイアされた多くの代替アルゴリズムを動機付けてきた。しかし、これらのアルゴリズムは、非常に深いネットワークのトレーニングに苦しむことで知られており、大規模な環境でBPと競合することを妨げている。実際、PCネットワーク(PCN)のスケーリングは、最近コミュニティにとっての課題として提起されている(Pinchetti et al , 2024)。ここでは,100層以上のPCNをDepth-$\mu$Pパラメータ化 (Yang et al , 2023; Bordelon et al , 2023) を用いて確実にトレーニング可能であることを示す。そこで本研究では,PCNのスケーリング動作を広範囲に解析することにより,標準PCNの学習を困難にするいくつかの病態を明らかにする。次に、これらの不安定性に対処しているにもかかわらず、$\mu$PCは、既存のベンチマークと比較して、競争性能とチューニングの少ない単純な分類タスクにおいて、非常に深い(最大128層までの)残差ネットワークの安定したトレーニングを可能にしていることを示す。さらに$\mu$PCは、幅と深さにまたがる重量と活動の学習率のゼロショット転送を可能にする。我々の結果は、他のローカルアルゴリズムに影響を及ぼし、畳み込みおよびトランスフォーマーアーキテクチャに拡張できる可能性がある。 https://github.com/thebuckleylab/jpc (Innocenti et al , 2024)。

関連論文リスト

Extractors: QLDPC Architectures for Efficient Pauli-Based Computation [42.95092131256421]
本稿では,任意のQLDPCメモリをPauliベースの計算に適した計算ブロックに拡張できる新しいプリミティブを提案する。特に、メモリ上でサポートされている任意の論理パウリ演算子は、1つの論理サイクルでフォールトトレラントに測定できる。我々のアーキテクチャは並列論理的測定により普遍的な量子回路を実装できる。
論文参考訳（メタデータ） (2025-03-13T14:07:40Z)
JPC: Flexible Inference for Predictive Coding Networks in JAX [0.769672852567215]
予測符号化を用いてニューラルネットワークをトレーニングするためのJAXライブラリであるJPCを紹介する。 JPCは、識別、生成、ハイブリッドモデルを含む様々なPCネットワーク(PCN)をトレーニングするための、シンプルで高速で柔軟なインターフェースを提供する。
論文参考訳（メタデータ） (2024-12-04T19:15:34Z)
Pushing the Limits: Concurrency Detection in Acyclic Sound Free-Choice Workflow Nets in $O(P^2 + T^2)$ [0.8192907805418583]
どの場所とトランジションを並列に実行できるかを知ることは、計算ネットを理解するのに役立つ。 Kovalyov と Esparza は、Obig((P+T)TP2big)$ のすべての並列な場所をライブおよび有界ネットで計算するアルゴリズムを開発した。本稿では,検出アルゴリズムのパレットとコンカレントパス(CP)アルゴリズムを補完する。
論文参考訳（メタデータ） (2024-01-29T12:11:34Z)
When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文参考訳（メタデータ） (2023-10-09T19:40:54Z)
Convolutional Deep Kernel Machines [25.958907308877148]
最近の研究は、表現学習を維持するためにベイズニューラルネットワークのNNGP(Neural Network Gaussian Process)制限を変更している。この修正された制限をディープ・ガウス・プロセスに適用すると、ディープ・カーネル・マシン(DKM)と呼ばれる実用的な学習アルゴリズムが得られる。
論文参考訳（メタデータ） (2023-09-18T14:36:17Z)
Understanding Predictive Coding as an Adaptive Trust-Region Method [0.0]
我々は,2次情報を用いた適応信頼領域(TR)アルゴリズムとしてPCの理論を開発する。我々は,PCの学習力学を,BPの損失勾配方向とPC推論のTR方向との補間と解釈できることを示した。
論文参考訳（メタデータ） (2023-05-29T16:25:55Z)
One-Shot Online Testing of Deep Neural Networks Based on Distribution Shift Detection [0.6091702876917281]
本研究では,1つのテストベクタのみを用いて,暗黙のクロスバー上で高速化されたNNをテストできるエミフォン・ショット・テスト手法を提案する。私たちのアプローチは、いくつかの大きなトポロジにまたがる100%のフォールトカバレッジを一貫して達成できます。
論文参考訳（メタデータ） (2023-05-16T11:06:09Z)
Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文参考訳（メタデータ） (2022-07-05T20:42:24Z)
Scalable Lipschitz Residual Networks with Convex Potential Flows [120.27516256281359]
残差ネットワーク勾配流における凸ポテンシャルを用いることで,1ドルのLipschitz変換が組み込まれていることを示す。 CIFAR-10の包括的な実験は、アーキテクチャのスケーラビリティと、証明可能な防御に$ell$のアプローチの利点を実証している。
論文参考訳（メタデータ） (2021-10-25T07:12:53Z)
Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文参考訳（メタデータ） (2020-04-13T23:09:15Z)
Large-Scale Gradient-Free Deep Learning with Recursive Local Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文参考訳（メタデータ） (2020-02-10T16:20:02Z)
Backward Feature Correction: How Deep Learning Performs Deep (Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文参考訳（メタデータ） (2020-01-13T17:28:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。