論文の概要: MAP Propagation Algorithm: Faster Learning with a Team of Reinforcement
Learning Agents
- arxiv url: http://arxiv.org/abs/2010.07893v2
- Date: Tue, 5 Oct 2021 16:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 03:06:21.784096
- Title: MAP Propagation Algorithm: Faster Learning with a Team of Reinforcement
Learning Agents
- Title(参考訳): 地図伝達アルゴリズム:強化学習エージェントを用いた高速な学習
- Authors: Stephen Chung
- Abstract要約: ニューラルネットワークをトレーニングする別の方法は、ネットワークの各ユニットを強化学習エージェントとして扱うことである。
本稿では,この分散を著しく低減するMAP伝搬という新しいアルゴリズムを提案する。
当社の作業は、深層強化学習におけるエージェントチームの広範な適用を可能にします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nearly all state-of-the-art deep learning algorithms rely on error
backpropagation, which is generally regarded as biologically implausible. An
alternative way of training an artificial neural network is through treating
each unit in the network as a reinforcement learning agent, and thus the
network is considered as a team of agents. As such, all units can be trained by
REINFORCE, a local learning rule modulated by a global signal that is more
consistent with biologically observed forms of synaptic plasticity. Although
this learning rule follows the gradient of return in expectation, it suffers
from high variance and thus the low speed of learning, rendering it impractical
to train deep networks. We therefore propose a novel algorithm called MAP
propagation to reduce this variance significantly while retaining the local
property of the learning rule. Experiments demonstrated that MAP propagation
could solve common reinforcement learning tasks at a similar speed to
backpropagation when applied to an actor-critic network. Our work thus allows
for the broader application of the teams of agents in deep reinforcement
learning.
- Abstract(参考訳): 最先端のディープラーニングアルゴリズムのほとんど全ては、一般的に生物学的に不可能と見なされる誤りのバックプロパゲーションに依存している。
ニューラルネットワークをトレーニングする別の方法は、ネットワークの各ユニットを強化学習エージェントとして扱うことで、ネットワークをエージェントのチームと見なすことができる。
したがって、すべてのユニットは、生物学的に観察されたシナプス可塑性の形式とより整合したグローバル信号によって変調される局所学習規則であるREINFORCEによって訓練することができる。
この学習規則は期待の回帰の勾配に従っているが、高い分散と学習速度の低下に悩まされ、深層ネットワークを訓練するには実用的でない。
そこで本研究では,学習ルールの局所的特性を維持しつつ,この分散を著しく低減するMAP伝搬法を提案する。
MAP伝搬はアクター・クリティカルネットワークに適用した場合、バックプロパゲーションと同様の速度で一般的な強化学習タスクを解くことができることを示した。
当社の作業は、深層強化学習におけるエージェントチームの広範な適用を可能にします。
関連論文リスト
- Emerging NeoHebbian Dynamics in Forward-Forward Learning: Implications for Neuromorphic Computing [7.345136916791223]
フォワード・フォワードアルゴリズム(FFA)は各層に局所学習規則を用いる。
局所学習を駆動する良さ関数として2乗ユークリッドノルムを用いる場合、FFAはネオ・ヘビアン学習規則と等価であることを示す。
論文 参考訳(メタデータ) (2024-06-24T09:33:56Z) - Structural Credit Assignment with Coordinated Exploration [0.0]
構造的信用割当の改善を目的とした方法は、一般的に2つのカテゴリに分類される。
本稿では,ボルツマンマシンやリカレントネットワークを協調探索に用いることを提案する。
実験結果から, 協調探査は訓練速度において, 独立探索をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2023-07-25T04:55:45Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Biologically Plausible Training of Deep Neural Networks Using a Top-down
Credit Assignment Network [32.575847142016585]
トップダウン・クレジット・アサインメント・ネットワーク(TDCA-network)は、トップダウン・クレジット・アサインメント・ネットワーク(TDCA-network)を用いてボトムアップ・ネットワークを訓練するように設計されている。
TDCAネットワークは、ニューラルネットワークトレーニングで広く使われている従来の損失関数とバックプロパゲーションアルゴリズムの代用として機能する。
その結果、TDCA-networkは様々なデータセットでニューラルネットワークをトレーニングする有望な可能性を示唆している。
論文 参考訳(メタデータ) (2022-08-01T07:14:37Z) - Stacked unsupervised learning with a network architecture found by
supervised meta-learning [4.209801809583906]
階層化された教師なし学習は、バックプロパゲーションよりも生物学的に妥当に思える。
しかし、SULは実践的な応用においてバックプロパゲーションには程遠い。
MNIST桁の完全教師なしクラスタリングが可能なSULアルゴリズムを示す。
論文 参考訳(メタデータ) (2022-06-06T16:17:20Z) - Local Critic Training for Model-Parallel Learning of Deep Neural
Networks [94.69202357137452]
そこで我々は,局所的批判訓練と呼ばれる新しいモデル並列学習手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の両方において,階層群の更新プロセスの分離に成功したことを示す。
また,提案手法によりトレーニングされたネットワークを構造最適化に利用できることを示す。
論文 参考訳(メタデータ) (2021-02-03T09:30:45Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Faster Biological Gradient Descent Learning [0.0]
バックプロパゲーション(back-proagation)は、ニューラルネットワークのトレーニングと教師あり学習に勾配勾配を利用する、一般的な機械学習アルゴリズムである。
トレーニング時間を短縮できる単純で局所的な勾配勾配勾配最適化アルゴリズムを考案した。
我々のアルゴリズムは、特に小さなネットワークで学習を高速化する。
論文 参考訳(メタデータ) (2020-09-27T05:26:56Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。