論文の概要: BP(\lambda): Online Learning via Synthetic Gradients
- arxiv url: http://arxiv.org/abs/2401.07044v1
- Date: Sat, 13 Jan 2024 11:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:09:18.536555
- Title: BP(\lambda): Online Learning via Synthetic Gradients
- Title(参考訳): BP(\lambda): 合成勾配によるオンライン学習
- Authors: Joseph Pemberton and Rui Ponte Costa
- Abstract要約: リカレントニューラルネットワークのトレーニングは通常、時間によるバックプロパゲーション(BPTT)に依存します。
それらの実装において、合成勾配は、バックプロパゲート勾配とブートストラップされた合成勾配の混合によって学習される。
RL における $mathrmTD(lambda)$ の蓄積に着想を得て,BPTT の利用を完全に回避した完全オンラインな合成勾配学習法を提案する。
- 参考スコア(独自算出の注目度): 6.581214715240991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training recurrent neural networks typically relies on backpropagation
through time (BPTT). BPTT depends on forward and backward passes to be
completed, rendering the network locked to these computations before loss
gradients are available. Recently, Jaderberg et al. proposed synthetic
gradients to alleviate the need for full BPTT. In their implementation
synthetic gradients are learned through a mixture of backpropagated gradients
and bootstrapped synthetic gradients, analogous to the temporal difference (TD)
algorithm in Reinforcement Learning (RL). However, as in TD learning, heavy use
of bootstrapping can result in bias which leads to poor synthetic gradient
estimates. Inspired by the accumulate $\mathrm{TD}(\lambda)$ in RL, we propose
a fully online method for learning synthetic gradients which avoids the use of
BPTT altogether: accumulate $BP(\lambda)$. As in accumulate
$\mathrm{TD}(\lambda)$, we show analytically that accumulate
$\mathrm{BP}(\lambda)$ can control the level of bias by using a mixture of
temporal difference errors and recursively defined eligibility traces. We next
demonstrate empirically that our model outperforms the original implementation
for learning synthetic gradients in a variety of tasks, and is particularly
suited for capturing longer timescales. Finally, building on recent work we
reflect on accumulate $\mathrm{BP}(\lambda)$ as a principle for learning in
biological circuits. In summary, inspired by RL principles we introduce an
algorithm capable of bias-free online learning via synthetic gradients.
- Abstract(参考訳): リカレントニューラルネットワークのトレーニングは通常、時間によるバックプロパゲーション(BPTT)に依存する。
BPTTは前方と後方のパスを完了させ、損失勾配が利用可能になる前にネットワークをこれらの計算にロックする。
最近、Jaderbergらは完全なBPTTの必要性を軽減するための合成勾配を提案した。
それらの実装において、合成勾配は、強化学習(RL)における時間差(TD)アルゴリズムに類似した、バックプロパゲート勾配とブートストラップ付き合成勾配の混合によって学習される。
しかし、TD学習と同様に、ブートストラップを多用するとバイアスが発生し、合成勾配推定が低下する。
RL における $\mathrm{TD}(\lambda)$ の蓄積に着想を得て,BPTT の利用を完全に回避した完全オンラインな合成勾配学習法を提案する。
accumulate $\mathrm{td}(\lambda)$のように、解析的に、accumulate $\mathrm{bp}(\lambda)$は時間差エラーと再帰的に定義された帰納可能性トレースの混合を用いてバイアスのレベルを制御することができる。
次に,我々のモデルが様々なタスクで合成勾配を学習する最初の実装よりも優れており,より長い時間スケールを捉えるのに特に適していることを示す。
最後に、最近の研究に基づいて、生体回路の学習の原則として蓄積された$\mathrm{BP}(\lambda)$を反映する。
要約すると、rlの原理に触発されて、合成勾配によるバイアスフリーオンライン学習が可能なアルゴリズムを紹介する。
関連論文リスト
- Imitation Learning in Discounted Linear MDPs without exploration assumptions [58.81226849657474]
ILARLと呼ばれる無限水平線形MDPにおける模倣学習のための新しいアルゴリズムを提案する。
所望の精度$epsilon$から$mathcalO(epsilon-5)$から$mathcalO(epsilon-4)$への依存を改善する。
線形関数近似による数値実験により、ILARLは他のよく使われるアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-03T15:28:44Z) - Variance Reduced Online Gradient Descent for Kernelized Pairwise
Learning with Limited Memory [19.822215548822882]
オンラインのペアワイズ学習を扱うために、オンライン勾配降下アルゴリズム(OGD)が提案されている。
OGDアルゴリズムの最近の進歩は、オンライン勾配の計算の複雑さを減らし、O(T)$未満の複雑さを達成し、たとえ$O(1)$であるとしても達成することを目的としている。
本研究では,カーネルのオンラインペアワイズ学習に拡張し,サブ線形後悔を改善したメモリOGDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:50:54Z) - Scalable Real-Time Recurrent Learning Using Columnar-Constructive
Networks [19.248060562241296]
リアルタイム反復学習をスケーラブルにする2つの制約を提案する。
ネットワークを独立したモジュールに分解するか、段階的にネットワークを学習することで、RTRLをパラメータ数と線形にスケールできることを示す。
本稿では,動物学習とアタリ2600ゲームに対する事前学習ポリシーのポリシー評価により,Trncated-BPTTに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-01-20T23:17:48Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - A Communication-Efficient Distributed Gradient Clipping Algorithm for
Training Deep Neural Networks [11.461878019780597]
グラディエントDescentは、ディープニューラルネットワークにおいてゆっくりと収束する。
勾配クリッピング方式が並列スピードアップを楽しむために複数のマシンを活用できるかどうかは謎のままである。
論文 参考訳(メタデータ) (2022-05-10T16:55:33Z) - Can we learn gradients by Hamiltonian Neural Networks? [68.8204255655161]
本稿では,勾配を学習するODEニューラルネットワークに基づくメタラーナを提案する。
提案手法は,LLUアクティベーションを最適化したMLMとMNISTデータセットにおいて,LSTMに基づくメタラーナーよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-31T18:35:10Z) - Scalable Online Recurrent Learning Using Columnar Neural Networks [35.584855852204385]
RTRLと呼ばれるアルゴリズムは、オンラインのリカレントネットワークの勾配を計算できるが、大規模なネットワークでは計算が困難である。
我々は,O(n)$演算とステップ毎のメモリを用いて,リアルタイムに繰り返し学習の勾配を近似するクレジット割り当てアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-09T23:45:13Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Scaling Equilibrium Propagation to Deep ConvNets by Drastically Reducing
its Gradient Estimator Bias [65.13042449121411]
実際には、EPによって提供される勾配推定によるネットワークのトレーニングは、MNISTよりも難しい視覚タスクにスケールしない。
有限ヌード法に固有のEPの勾配推定のバイアスがこの現象の原因であることを示す。
これらの手法を適用し、非対称な前方および後方接続を持つアーキテクチャをトレーニングし、13.2%のテストエラーを発生させる。
論文 参考訳(メタデータ) (2020-06-06T09:36:07Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。