論文の概要: Scalable Online Recurrent Learning Using Columnar Neural Networks
- arxiv url: http://arxiv.org/abs/2103.05787v1
- Date: Tue, 9 Mar 2021 23:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 14:50:06.741479
- Title: Scalable Online Recurrent Learning Using Columnar Neural Networks
- Title(参考訳): カラム型ニューラルネットワークを用いたスケーラブルオンラインリカレント学習
- Authors: Khurram Javed, Martha White, Rich Sutton
- Abstract要約: RTRLと呼ばれるアルゴリズムは、オンラインのリカレントネットワークの勾配を計算できるが、大規模なネットワークでは計算が困難である。
我々は,O(n)$演算とステップ毎のメモリを用いて,リアルタイムに繰り返し学習の勾配を近似するクレジット割り当てアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 35.584855852204385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structural credit assignment for recurrent learning is challenging. An
algorithm called RTRL can compute gradients for recurrent networks online but
is computationally intractable for large networks. Alternatives, such as BPTT,
are not online. In this work, we propose a credit-assignment algorithm --
\algoname{} -- that approximates the gradients for recurrent learning in
real-time using $O(n)$ operations and memory per-step. Our method builds on the
idea that for modular recurrent networks, composed of columns with scalar
states, it is sufficient for a parameter to only track its influence on the
state of its column. We empirically show that as long as connections between
columns are sparse, our method approximates the true gradient well. In the
special case when there are no connections between columns, the $O(n)$ gradient
estimate is exact. We demonstrate the utility of the approach for both
recurrent state learning and meta-learning by comparing the estimated gradient
to the true gradient on a synthetic test-bed.
- Abstract(参考訳): リカレント学習のための構造的クレジット割り当ては難しい。
RTRLと呼ばれるアルゴリズムは、オンラインのリカレントネットワークの勾配を計算できるが、大規模なネットワークでは計算が困難である。
BPTTのような代替サービスはオンラインではない。
本研究では,1ステップあたり$o(n)$演算とメモリを用いて,再帰学習の勾配を近似するクレジット割り当てアルゴリズム -\algoname{} -- を提案する。
提案手法は,スカラー状態の列からなるモジュラリカレントネットワークにおいて,パラメータが列の状態に与える影響のみを追跡するのに十分である,という考え方に基づいている。
実験により,列間の接続がスパースである限り,本手法は真の勾配を近似することを示した。
特別な場合、列間に接続がない場合、$o(n)$勾配推定は正確である。
合成テストベッド上で推定勾配と真の勾配を比較することにより, 反復状態学習とメタ学習の両方に対するアプローチの有用性を実証する。
関連論文リスト
- BP(\lambda): Online Learning via Synthetic Gradients [6.581214715240991]
リカレントニューラルネットワークのトレーニングは通常、時間によるバックプロパゲーション(BPTT)に依存します。
それらの実装において、合成勾配は、バックプロパゲート勾配とブートストラップされた合成勾配の混合によって学習される。
RL における $mathrmTD(lambda)$ の蓄積に着想を得て,BPTT の利用を完全に回避した完全オンラインな合成勾配学習法を提案する。
論文 参考訳(メタデータ) (2024-01-13T11:13:06Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Fighting Uncertainty with Gradients: Offline Reinforcement Learning via
Diffusion Score Matching [22.461036967440723]
我々は不確実性指標としてデータへのスムーズな距離について検討し、2つの有益な性質を持つと主張している。
スコアマッチング技術を用いて,これらの勾配を効率的に学習できることを示す。
本研究では,高次元問題における一階計画を実現するためのスコアガイドプランニング(SGP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T23:40:58Z) - Scalable Real-Time Recurrent Learning Using Columnar-Constructive
Networks [19.248060562241296]
リアルタイム反復学習をスケーラブルにする2つの制約を提案する。
ネットワークを独立したモジュールに分解するか、段階的にネットワークを学習することで、RTRLをパラメータ数と線形にスケールできることを示す。
本稿では,動物学習とアタリ2600ゲームに対する事前学習ポリシーのポリシー評価により,Trncated-BPTTに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-01-20T23:17:48Z) - Stochastic Gradient Descent with Dependent Data for Offline
Reinforcement Learning [4.421561004829125]
オフライン学習は探索と探索を扱うのに役立ち、多くのアプリケーションでデータの再利用を可能にする。
本研究では,政策評価と政策学習という2つのオフライン学習課題について検討する。
論文 参考訳(メタデータ) (2022-02-06T20:54:36Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Accumulated Decoupled Learning: Mitigating Gradient Staleness in
Inter-Layer Model Parallelization [16.02377434191239]
本稿では, 定常勾配効果を緩和するために, 勾配累積法を取り入れた累積非結合学習(ADL)を提案する。
提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。
ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。
論文 参考訳(メタデータ) (2020-12-03T11:52:55Z) - LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。
このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文 参考訳(メタデータ) (2020-08-04T05:41:29Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。