論文の概要: Recursive Least Squares Policy Control with Echo State Network
- arxiv url: http://arxiv.org/abs/2201.04781v1
- Date: Thu, 13 Jan 2022 03:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 14:15:44.389112
- Title: Recursive Least Squares Policy Control with Echo State Network
- Title(参考訳): エコー状態ネットワークを用いた再帰最小二乗制御
- Authors: Chunyuan Zhang, Chao Liu, Qi Song and Jie Zhao
- Abstract要約: 本稿では,ESNRLS-QとESNRLS-Sarsaの2つの新しいポリシー制御アルゴリズムを提案する。
トレーニングサンプルの相関性を低減するために,リークインテグレータESNとミニバッチ学習モードを用いる。
ミニバッチモードにおけるESNのトレーニングに適したRSSを実現するために,RSS相関行列を更新するための平均近似法を提案する。
- 参考スコア(独自算出の注目度): 17.555929738017344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The echo state network (ESN) is a special type of recurrent neural networks
for processing the time-series dataset. However, limited by the strong
correlation among sequential samples of the agent, ESN-based policy control
algorithms are difficult to use the recursive least squares (RLS) algorithm to
update the ESN's parameters. To solve this problem, we propose two novel policy
control algorithms, ESNRLS-Q and ESNRLS-Sarsa. Firstly, to reduce the
correlation of training samples, we use the leaky integrator ESN and the
mini-batch learning mode. Secondly, to make RLS suitable for training ESN in
mini-batch mode, we present a new mean-approximation method for updating the
RLS correlation matrix. Thirdly, to prevent ESN from over-fitting, we use the
L1 regularization technique. Lastly, to prevent the target state-action value
from overestimation, we employ the Mellowmax method. Simulation results show
that our algorithms have good convergence performance.
- Abstract(参考訳): エコー状態ネットワーク(ESN)は時系列データセットを処理するための特別なタイプのリカレントニューラルネットワークである。
しかし、エージェントのシーケンシャルなサンプル間の強い相関によって制限されるため、ESNのパラメータを更新するために再帰最小二乗法(RLS)アルゴリズムを使用するのは困難である。
そこで本研究では,ESNRLS-QとESNRLS-Sarsaの2つのポリシー制御アルゴリズムを提案する。
まず、トレーニングサンプルの相関を小さくするために、漏れやすい積分器ESNとミニバッチ学習モードを用いる。
第二に,小型バッチモードでのEMS訓練に適したRSSを実現するために,RSS相関行列を更新するための平均近似法を提案する。
第3に,esnの過剰フィッティングを防止するため,l1正規化手法を用いる。
最後に,目標状態-作用値の過大評価を防止するために,Mellowmax法を用いる。
シミュレーションの結果,アルゴリズムの収束性能は良好であった。
関連論文リスト
- Recurrent Stochastic Configuration Networks for Temporal Data Analytics [3.8719670789415925]
本稿では,問題解決のためのコンフィグレーションネットワーク(RSCN)のリカレントバージョンを開発する。
我々は、初期RCCNモデルを構築し、その後、オンラインで出力重みを更新する。
数値的な結果は,提案したRCCNが全データセットに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2024-06-21T03:21:22Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - A Comparative Study of Deep Learning and Iterative Algorithms for Joint Channel Estimation and Signal Detection in OFDM Systems [11.190815358585137]
周波数分割多重化システムでは,共同チャネル推定と信号検出が重要である。
従来のアルゴリズムは低信号対雑音比(SNR)のシナリオでは不十分である。
深層学習 (DL) 手法は検討されているが, 計算コストや低SNR設定による検証の欠如が懸念されている。
論文 参考訳(メタデータ) (2023-03-07T06:34:04Z) - Recursive Least Squares Advantage Actor-Critic Algorithms [20.792917267835247]
2つの新しいRSSベースのアドバンテージアクター批評家アルゴリズム(A2C)を提案する。
RLSSA2C と RLSNA2C は RLS 法を用いて批評家ネットワークとアクターネットワークの隠れ層を訓練する。
実験結果から,両アルゴリズムは,ほとんどのゲームやタスクにおいて,バニラA2Cよりもサンプリング効率がよいことがわかった。
論文 参考訳(メタデータ) (2022-01-15T20:00:26Z) - Verification of Neural-Network Control Systems by Integrating Taylor
Models and Zonotopes [0.0]
ニューラルネットワークコントローラ(NNCS)を用いた閉ループ力学系の検証問題について検討する。
本稿では,Taylorモデルとzonotopesに基づくアプローチをチェーンするアルゴリズムを提案し,NNCSの精度の高い到達性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-16T20:46:39Z) - Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for
sparse recover [87.28082715343896]
我々は、モデルミス特定を前進させるのに堅牢な逆問題を解決するためのディープニューラルネットワークについて検討する。
我々は,アルゴリズムの展開手法を根底にある回復問題のロバストバージョンに適用することにより,新しい堅牢なディープニューラルネットワークアーキテクチャを設計する。
提案したRESTネットワークは,圧縮センシングとレーダイメージングの両問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回る性能を示す。
論文 参考訳(メタデータ) (2021-10-20T06:15:45Z) - Revisiting Recursive Least Squares for Training Deep Neural Networks [10.44340837533087]
再帰最小二乗法(RLS)アルゴリズムは、その高速収束のため、かつては小規模ニューラルネットワークのトレーニングに広く用いられていた。
従来のRSSアルゴリズムは、計算複雑性が高く、事前条件が多すぎるため、ディープニューラルネットワーク(DNN)のトレーニングには適さない。
本稿では,フィードフォワードニューラルネットワーク,畳み込みニューラルネットワーク,リカレントニューラルネットワークの3つの新しいRSS最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-07T17:43:51Z) - LocalDrop: A Hybrid Regularization for Deep Neural Networks [98.30782118441158]
本稿では,ローカルラデマチャー複雑性を用いたニューラルネットワークの正規化のための新しい手法であるLocalDropを提案する。
フルコネクテッドネットワーク(FCN)と畳み込みニューラルネットワーク(CNN)の両方のための新しい正規化機能は、ローカルラデマチャー複雑さの上限提案に基づいて開発されました。
論文 参考訳(メタデータ) (2021-03-01T03:10:11Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。