Fugu-MT 論文翻訳(概要): Block-local learning with probabilistic latent representations

論文の概要: Block-local learning with probabilistic latent representations

arxiv url: http://arxiv.org/abs/2305.14974v1
Date: Wed, 24 May 2023 10:11:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 17:24:51.668607
Title: Block-local learning with probabilistic latent representations
Title（参考訳）: 確率的潜在表現を用いたブロック局所学習
Authors: David Kappel, Khaleelulla Khan Nazeer, Cabrel Teguemne Fokam, Christian Mayr, Anand Subramoney
Abstract要約: バックプロパゲーションアルゴリズムは、ネットワークのブロック間でのシーケンシャルな更新を必要とする。バックプロパゲーションは、更新を計算するために重み行列の転置に依存し、ブロック間で重み輸送の問題を引き起こす。そこで本稿では,ターゲットから入力への情報を後方に伝播し,局所的な損失を補うツインネットワークを提案する。
参考スコア（独自算出の注目度）: 0.8260432715157024
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The ubiquitous backpropagation algorithm requires sequential updates across blocks of a network, introducing a locking problem. Moreover, backpropagation relies on the transpose of weight matrices to calculate updates, introducing a weight transport problem across blocks. Both these issues prevent efficient parallelisation and horizontal scaling of models across devices. We propose a new method that introduces a twin network that propagates information backwards from the targets to the input to provide auxiliary local losses. Forward and backward propagation can work in parallel and with different sets of weights, addressing the problems of weight transport and locking. Our approach derives from a statistical interpretation of end-to-end training which treats activations of network layers as parameters of probability distributions. The resulting learning framework uses these parameters locally to assess the matching between forward and backward information. Error backpropagation is then performed locally within each block, leading to `block-local' learning. Several previously proposed alternatives to error backpropagation emerge as special cases of our model. We present results on various tasks and architectures, including transformers, demonstrating state-of-the-art performance using block-local learning. These results provide a new principled framework to train very large networks in a distributed setting and can also be applied in neuromorphic systems.
Abstract（参考訳）: ユビキタスなバックプロパゲーションアルゴリズムは、ネットワークのブロック間でシーケンシャルな更新を必要とする。さらに、バックプロパゲーションは、更新を計算するために重み行列の転置に依存し、ブロック間で重み輸送の問題を引き起こす。どちらも、デバイス間のモデルの効率的な並列化と水平スケーリングを防止する。そこで本稿では,ターゲットから入力への情報を後方に伝播し,局所的な損失を補うツインネットワークを提案する。前向きおよび後向きの伝播は、重量輸送とロックの問題に対処するため、異なる重みのセットで並列に動作することができる。提案手法は,ネットワーク層の活性化を確率分布のパラメータとして扱うエンドツーエンドトレーニングの統計的解釈から導かれる。学習フレームワークはこれらのパラメータを局所的に使用して前方情報と後方情報とのマッチングを評価する。エラーバックプロパゲーションは各ブロック内でローカルに実行され、‘ブロックローカル’学習に繋がる。従来提案されていた誤りのバックプロパゲーションの代替案が,本モデルの特別な事例として現れている。ブロックローカル学習を用いて、トランスフォーマーを含む様々なタスクやアーキテクチャの結果を示す。これらの結果は、分散環境で非常に大きなネットワークをトレーニングするための新しい原則付きフレームワークを提供し、ニューロモルフィックシステムにも適用できる。

関連論文リスト

MAN++: Scaling Momentum Auxiliary Network for Supervised Local Learning in Vision Tasks [10.200277827846076]
ローカル学習を教師するMOmentum Auxiliary Network++ (MAN++) を提案する。 MAN++は、GPUメモリ使用量を大幅に削減しつつ、エンドツーエンドのトレーニングに匹敵するパフォーマンスを実現していることを示す。
論文参考訳（メタデータ） (2025-07-22T06:50:19Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Momentum Auxiliary Network for Supervised Local Learning [7.5717621206854275]
改良されたローカル学習セグメントは、独立した補助ネットワークによって更新された複数のローカルブロックにネットワークを分割する。動的相互作用機構を確立するためのMAN(Momentum Auxiliary Network)を提案する。エンドツーエンドのトレーニングに比べて,ImageNetデータセットではGPUメモリ使用率を45%以上削減できる。
論文参考訳（メタデータ） (2024-07-08T05:31:51Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Unlocking Deep Learning: A BP-Free Approach for Parallel Block-Wise Training of Neural Networks [9.718519843862937]
ブロックワイズBPフリー(BWBPF)ニューラルネットワークを導入し、局所誤差信号を利用してサブニューラルネットワークを個別に最適化する。実験結果から,VGGとResNetのバラツキに対して,トランスファー可能な疎結合アーキテクチャを同定できることがわかった。
論文参考訳（メタデータ） (2023-12-20T08:02:33Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
IF2Net: Innately Forgetting-Free Networks for Continual Learning [49.57495829364827]
継続的な学習は、以前に学んだ知識に干渉することなく、新しい概念を漸進的に吸収することができる。ニューラルネットワークの特性に触発され,本研究は,IF2Net(Innately Forgetting-free Network)の設計方法について検討した。 IF2Netは、1つのネットワークがテスト時にタスクのIDを告げることなく、本質的に無制限のマッピングルールを学習することを可能にする。
論文参考訳（メタデータ） (2023-06-18T05:26:49Z)
The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。 FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文参考訳（メタデータ） (2023-03-17T02:01:11Z)
Latent Iterative Refinement for Modular Source Separation [44.78689915209527]
従来のソース分離アプローチは、すべてのデータを一度に利用できるように、ディープニューラルネットワークモデルをエンドツーエンドにトレーニングする。我々は、トレーニングと推論の段階において、リソース効率を著しく向上させることができると論じる。
論文参考訳（メタデータ） (2022-11-22T00:02:57Z)
Block-wise Training of Residual Networks via the Minimizing Movement Scheme [10.342408668490975]
本研究では,分散空間における勾配流の最小化運動スキームに着想を得たレイヤワイドトレーニング手法を開発した。この方法は各ブロックの運動エネルギー正則化に比例し、ブロックを最適な輸送マップとし、それらを規則性で与える。これは、レイヤーワイドトレーニングで観測される停滞問題を緩和することで機能し、強欲に訓練された初期の層が過度に適合し、深い層が一定の深さの後にテストの精度を高めるのを阻止する。
論文参考訳（メタデータ） (2022-10-03T14:03:56Z)
Transfer Learning via Test-Time Neural Networks Aggregation [11.42582922543676]
ディープニューラルネットワークが従来の機械学習より優れていることが示されている。ディープ・ネットワークは一般性に欠けており、異なる分布から引き出された新しい(テスト)セットでは性能が良くない。
論文参考訳（メタデータ） (2022-06-27T15:46:05Z)
Forgetting Outside the Box: Scrubbing Deep Networks of Information Accessible from Input-Output Observations [143.3053365553897]
本稿では、訓練された深層ネットワークからトレーニングデータのコホートへの依存を取り除く手順について述べる。忘れられたコホートについて,クエリ毎にどれだけの情報を取り出すことができるか,という新たな境界を導入する。我々は,ニューラルタンジェントカーネルにインスパイアされたDNNのアクティベーションとウェイトダイナミクスの接続を利用して,アクティベーションの情報を計算する。
論文参考訳（メタデータ） (2020-03-05T23:17:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。