Fugu-MT 論文翻訳(概要): Echo State Networks for Reinforcement Learning

論文の概要: Echo State Networks for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2102.06258v1
Date: Thu, 11 Feb 2021 20:33:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-15 16:14:15.415408
Title: Echo State Networks for Reinforcement Learning
Title（参考訳）: 強化学習のためのエコー状態ネットワーク
Authors: Allen G. Hart, Kevin R. Olding, A. M. G. Cox, Olga Isupova, J. H. P. Dawes
Abstract要約: Echo State Networks (ESN) は、ランダムな内部重みとトレーニング可能な出力層を備えた単層ニューラルネットワークの一種である。本研究では, ESN が繰り返しおよび決定論的制御問題の幅広いクラスの価値関数を近似できることを示す。
参考スコア（独自算出の注目度）: 2.064923532131528
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Echo State Networks (ESNs) are a type of single-layer recurrent neural network with randomly-chosen internal weights and a trainable output layer. We prove under mild conditions that a sufficiently large Echo State Network (ESN) can approximate the value function of a broad class of stochastic and deterministic control problems. Such control problems are generally non-Markovian. We describe how the ESN can form the basis for novel (and computationally efficient) reinforcement learning algorithms in a non-Markovian framework. We demonstrate this theory with two examples. In the first, we use an ESN to solve a deterministic, partially observed, control problem which is a simple game we call `Bee World'. In the second example, we consider a stochastic control problem inspired by a market making problem in mathematical finance. In both cases we can compare the dynamics of the algorithms with analytic solutions to show that even after only a single reinforcement policy iteration the algorithms perform with reasonable skill.
Abstract（参考訳）: Echo State Networks (ESN) は、ランダムな内部重み付けとトレーニング可能な出力層を備えた単層リカレントニューラルネットワークの一種である。十分に大きなEcho State Network (ESN) が、幅広い確率的および決定論的制御問題の値関数を近似できることを、穏やかな条件下で証明する。このような制御問題は一般にマルコフでない。本稿では,ESNが非マルコフフレームワークにおける新規(かつ計算効率のよい)強化学習アルゴリズムの基礎をいかに形成できるかについて述べる。この理論を2つの例で示す。第一に、ESNを用いて決定論的、部分的に観察された制御問題を解き、これは'Bee World'と呼ばれる単純なゲームである。第2の例では、数学金融における市場形成問題から着想を得た確率的制御問題を考える。いずれの場合も、アルゴリズムのダイナミクスと分析的なソリューションを比較して、たった1回の強化ポリシーイテレーションの後でも、アルゴリズムが合理的なスキルで実行することを示すことができる。

関連論文リスト

Learning to Solve Combinatorial Optimization under Positive Linear Constraints via Non-Autoregressive Neural Networks [103.78912399195005]
組合せ最適化(英: Combinatorial Optimization、CO)は、計算機科学、応用数学などにおける基本的な問題である。本稿では, 正線形制約下でのCO問題の解法として, 非自己回帰ニューラルネットワーク群を設計する。本研究では,施設位置,最大被覆率,旅行セールスマン問題を含む代表的CO問題の解決において,この枠組みの有効性を検証する。
論文参考訳（メタデータ） (2024-09-06T14:58:31Z)
LinSATNet: The Positive Linear Satisfiability Neural Networks [116.65291739666303]
本稿では,ニューラルネットワークに人気の高い正の線形満足度を導入する方法について検討する。本稿では,古典的なシンクホーンアルゴリズムを拡張し,複数の辺分布の集合を共同で符号化する,最初の微分可能満足層を提案する。
論文参考訳（メタデータ） (2024-07-18T22:05:21Z)
Matching the Statistical Query Lower Bound for k-sparse Parity Problems with Stochastic Gradient Descent [83.85536329832722]
勾配勾配降下(SGD)は,$d$次元ハイパーキューブ上の$k$パリティ問題を効率的に解くことができることを示す。次に、SGDでトレーニングされたニューラルネットワークがどのようにして、小さな統計的エラーで$k$-parityの問題を解決するかを実証する。
論文参考訳（メタデータ） (2024-04-18T17:57:53Z)
Deep multitask neural networks for solving some stochastic optimal control problems [0.0]
本稿では,最適制御問題のクラスについて考察し,ニューラルネットワークを用いた効果的な解法を提案する。マルチタスクニューラルネットワークをトレーニングするために,タスク間の学習を動的にバランスさせる新しいスキームを導入する。実世界のデリバティブ価格問題に関する数値実験を通じて,本手法が最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2024-01-23T17:20:48Z)
Energy Regularized RNNs for Solving Non-Stationary Bandit Problems [97.72614340294547]
我々は、ニューラルネットワークが特定の行動を支持するのに自信過剰になるのを防ぐエネルギー用語を提案する。提案手法は,ロッティングバンドのサブプロブレムを解く方法と同じくらい有効であることを示す。
論文参考訳（メタデータ） (2023-03-12T03:32:43Z)
Efficiently Learning Any One Hidden Layer ReLU Network From Queries [27.428198343906352]
ネットワークへのブラックボックスアクセスを提供するニューラルネットワークアクティベーションを任意の1つの隠蔽層で学習するアルゴリズムを初めて提供する。最悪のネットワークであっても、完全時間で効率を保証できるのはこれが初めてです。
論文参考訳（メタデータ） (2021-11-08T18:59:40Z)
Conditional physics informed neural networks [85.48030573849712]
固有値問題のクラス解を推定するための条件付きPINN(物理情報ニューラルネットワーク)を紹介します。一つのディープニューラルネットワークが、問題全体に対する偏微分方程式の解を学習できることが示される。
論文参考訳（メタデータ） (2021-04-06T18:29:14Z)
SiMaN: Sign-to-Magnitude Network Binarization [165.5630656849309]
重みバイナライゼーションは、高倍率重みを+1s、0sに符号化することで分析ソリューションを提供する。二元化ネットワークの学習重みは、エントロピーを許さないラプラシアン分布に概ね従うことが証明される。 CIFAR-10 と ImageNet を用いて,シマナライゼーション (SiMaN) と呼ばれる手法の評価を行った。
論文参考訳（メタデータ） (2021-02-16T07:03:51Z)
Training Generative Adversarial Networks via stochastic Nash games [2.995087247817663]
GAN(Generative Adversarial Network)は、ジェネレータと識別器という2つの対角ニューラルネットワークを持つ生成モデルのクラスである。データの数が増加すると、正確な解に収束することを示す。また, サンプル数が少ない場合, SRFBアルゴリズムの平均変種を解の近傍に収束させることも示した。
論文参考訳（メタデータ） (2020-10-17T09:07:40Z)
Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文参考訳（メタデータ） (2020-10-02T07:44:09Z)
Graph Neural Networks for Scalable Radio Resource Management: Architecture Design and Theoretical Analysis [31.372548374969387]
本稿では,大規模無線資源管理問題にグラフニューラルネットワーク(GNN)を適用することを提案する。提案手法はスケーラビリティが高く,1つのGPU上で1,000ドルのトランシーバペアを6ミリ秒以内で行う干渉チャネルにおけるビームフォーミング問題を解くことができる。
論文参考訳（メタデータ） (2020-07-15T11:43:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。