論文の概要: Echo State Networks for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.06258v1
- Date: Thu, 11 Feb 2021 20:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 16:14:15.415408
- Title: Echo State Networks for Reinforcement Learning
- Title(参考訳): 強化学習のためのエコー状態ネットワーク
- Authors: Allen G. Hart, Kevin R. Olding, A. M. G. Cox, Olga Isupova, J. H. P.
Dawes
- Abstract要約: Echo State Networks (ESN) は、ランダムな内部重みとトレーニング可能な出力層を備えた単層ニューラルネットワークの一種である。
本研究では, ESN が繰り返しおよび決定論的制御問題の幅広いクラスの価値関数を近似できることを示す。
- 参考スコア(独自算出の注目度): 2.064923532131528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Echo State Networks (ESNs) are a type of single-layer recurrent neural
network with randomly-chosen internal weights and a trainable output layer. We
prove under mild conditions that a sufficiently large Echo State Network (ESN)
can approximate the value function of a broad class of stochastic and
deterministic control problems. Such control problems are generally
non-Markovian. We describe how the ESN can form the basis for novel (and
computationally efficient) reinforcement learning algorithms in a non-Markovian
framework. We demonstrate this theory with two examples. In the first, we use
an ESN to solve a deterministic, partially observed, control problem which is a
simple game we call `Bee World'. In the second example, we consider a
stochastic control problem inspired by a market making problem in mathematical
finance. In both cases we can compare the dynamics of the algorithms with
analytic solutions to show that even after only a single reinforcement policy
iteration the algorithms perform with reasonable skill.
- Abstract(参考訳): Echo State Networks (ESN) は、ランダムな内部重み付けとトレーニング可能な出力層を備えた単層リカレントニューラルネットワークの一種である。
十分に大きなEcho State Network (ESN) が、幅広い確率的および決定論的制御問題の値関数を近似できることを、穏やかな条件下で証明する。
このような制御問題は一般にマルコフでない。
本稿では,ESNが非マルコフフレームワークにおける新規(かつ計算効率のよい)強化学習アルゴリズムの基礎をいかに形成できるかについて述べる。
この理論を2つの例で示す。
第一に、ESNを用いて決定論的、部分的に観察された制御問題を解き、これは'Bee World'と呼ばれる単純なゲームである。
第2の例では、数学金融における市場形成問題から着想を得た確率的制御問題を考える。
いずれの場合も、アルゴリズムのダイナミクスと分析的なソリューションを比較して、たった1回の強化ポリシーイテレーションの後でも、アルゴリズムが合理的なスキルで実行することを示すことができる。
関連論文リスト
- Deep multitask neural networks for solving some stochastic optimal
control problems [0.0]
本稿では,最適制御問題のクラスについて考察し,ニューラルネットワークを用いた効果的な解法を提案する。
マルチタスクニューラルネットワークをトレーニングするために,タスク間の学習を動的にバランスさせる新しいスキームを導入する。
実世界のデリバティブ価格問題に関する数値実験を通じて,本手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-01-23T17:20:48Z) - A minimax optimal control approach for robust neural ODEs [49.1574468325115]
我々は、頑健な制御の観点から、ニューラルなODEの敵対的訓練に対処する。
我々はポントリャーギンの最大原理の形で一階最適条件を導出する。
論文 参考訳(メタデータ) (2023-10-26T17:07:43Z) - Energy Regularized RNNs for Solving Non-Stationary Bandit Problems [97.72614340294547]
我々は、ニューラルネットワークが特定の行動を支持するのに自信過剰になるのを防ぐエネルギー用語を提案する。
提案手法は,ロッティングバンドのサブプロブレムを解く方法と同じくらい有効であることを示す。
論文 参考訳(メタデータ) (2023-03-12T03:32:43Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Efficiently Learning Any One Hidden Layer ReLU Network From Queries [27.428198343906352]
ネットワークへのブラックボックスアクセスを提供するニューラルネットワークアクティベーションを任意の1つの隠蔽層で学習するアルゴリズムを初めて提供する。
最悪のネットワークであっても、完全時間で効率を保証できるのはこれが初めてです。
論文 参考訳(メタデータ) (2021-11-08T18:59:40Z) - Conditional physics informed neural networks [85.48030573849712]
固有値問題のクラス解を推定するための条件付きPINN(物理情報ニューラルネットワーク)を紹介します。
一つのディープニューラルネットワークが、問題全体に対する偏微分方程式の解を学習できることが示される。
論文 参考訳(メタデータ) (2021-04-06T18:29:14Z) - SiMaN: Sign-to-Magnitude Network Binarization [165.5630656849309]
重みバイナライゼーションは、高倍率重みを+1s、0sに符号化することで分析ソリューションを提供する。
二元化ネットワークの学習重みは、エントロピーを許さないラプラシアン分布に概ね従うことが証明される。
CIFAR-10 と ImageNet を用いて,シマナライゼーション (SiMaN) と呼ばれる手法の評価を行った。
論文 参考訳(メタデータ) (2021-02-16T07:03:51Z) - Training Generative Adversarial Networks via stochastic Nash games [2.995087247817663]
GAN(Generative Adversarial Network)は、ジェネレータと識別器という2つの対角ニューラルネットワークを持つ生成モデルのクラスである。
データの数が増加すると、正確な解に収束することを示す。
また, サンプル数が少ない場合, SRFBアルゴリズムの平均変種を解の近傍に収束させることも示した。
論文 参考訳(メタデータ) (2020-10-17T09:07:40Z) - Learning Robust Algorithms for Online Allocation Problems Using
Adversarial Training [10.14260510961573]
機械学習アプローチを用いて、オンラインアロケーション(二部マッチング)のアルゴリズムを見つけるという課題に対処する。
本稿では,従来のオンライン予算マッチング問題であるAdWords問題に着目し,理論的および実用的意義の両面から考察する。
論文 参考訳(メタデータ) (2020-10-16T14:33:11Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - Graph Neural Networks for Scalable Radio Resource Management:
Architecture Design and Theoretical Analysis [31.372548374969387]
本稿では,大規模無線資源管理問題にグラフニューラルネットワーク(GNN)を適用することを提案する。
提案手法はスケーラビリティが高く,1つのGPU上で1,000ドルのトランシーバペアを6ミリ秒以内で行う干渉チャネルにおけるビームフォーミング問題を解くことができる。
論文 参考訳(メタデータ) (2020-07-15T11:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。