論文の概要: Improved Exploring Starts by Kernel Density Estimation-Based State-Space
Coverage Acceleration in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2105.08990v1
- Date: Wed, 19 May 2021 08:36:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:37:43.053493
- Title: Improved Exploring Starts by Kernel Density Estimation-Based State-Space
Coverage Acceleration in Reinforcement Learning
- Title(参考訳): 強化学習におけるカーネル密度推定に基づく状態空間カバレッジ加速による探索開始の改善
- Authors: Maximilian Schenke and Oliver Wallscheid
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、制御工学における一般的な研究テーマである。
RLコントローラは、制御されたシステムと直接対話するために訓練され、データ駆動およびパフォーマンス指向のソリューションをレンダリングする。
DESSCAはカーネル密度推定に基づく状態空間カバレッジアクセラレーションである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) is currently a popular research topic in control
engineering and has the potential to make its way to industrial and commercial
applications. Corresponding RL controllers are trained in direct interaction
with the controlled system, rendering them data-driven and performance-oriented
solutions. The best practice of exploring starts (ES) is used by default to
support the learning process via randomly picked initial states. However, this
method might deliver strongly biased results if the system's dynamic and
constraints lead to unfavorable sample distributions in the state space (e.g.,
condensed sample accumulation in certain state-space areas). To overcome this
issue, a kernel density estimation-based state-space coverage acceleration
(DESSCA) is proposed, which improves the ES concept by prioritizing
infrequently visited states for a more balanced coverage of the state space
during training. Considered test scenarios are mountain car, cartpole and
electric motor control environments. Using DQN and DDPG as exemplary RL
algorithms, it can be shown that DESSCA is a simple yet effective algorithmic
extension to the established ES approach.
- Abstract(参考訳): 強化学習(rl)は現在、制御工学における一般的な研究テーマであり、産業および商業アプリケーションへの道を開く可能性がある。
対応するRLコントローラは、制御されたシステムと直接対話することで、データ駆動およびパフォーマンス指向のソリューションをレンダリングする。
開始(es)を探索するベストプラクティスは、ランダムに選択された初期状態を通じて学習プロセスをサポートするためにデフォルトで使用される。
しかし、システムの動的および制約が状態空間における好ましくないサンプル分布(例えば、特定の状態空間領域における凝縮されたサンプル蓄積)に繋がる場合、この方法は強いバイアスを与える。
この問題を解決するために,カーネル密度推定に基づく状態空間カバレッジ加速(DESSCA)を提案する。
検討されたテストシナリオは、マウンテンカー、カートポール、電動モーター制御環境である。
DQNとDDPGを例示的RLアルゴリズムとして使用することにより、DESSCAは確立されたESアプローチに対する単純かつ効果的なアルゴリズム拡張であることを示すことができる。
関連論文リスト
- Learning Agents With Prioritization and Parameter Noise in Continuous State and Action Space [0.0]
本稿では,従来の連続状態問題と行動空間問題において,先行した結果よりも高い性能を示すために,最先端手法の組み合わせを優先的に導入する。
実験では、トレーニング中にパラメータノイズを用いることで、より堅牢なRLモデルも実現した。
論文 参考訳(メタデータ) (2024-10-15T04:12:12Z) - Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial States [52.56827348431552]
勾配降下はしばしば暗黙のバイアスを示し、目に見えないデータに優れたパフォーマンスをもたらす。
本稿では,初期状態に対する外挿の観点から,政策勾配の暗黙バイアスを理論的に検討する。
論文 参考訳(メタデータ) (2024-02-12T18:41:31Z) - Laboratory Experiments of Model-based Reinforcement Learning for
Adaptive Optics Control [0.565395466029518]
ESO本部のGHOSTテストベンチに、AO(PO4AO)のためのポリシー最適化と呼ばれるRL手法を実装し、適応する。
本手法の予測的・自己校正的側面について検討する。
PyTorchを実行しているGHOSTの新しい実装では、ハードウェア、パイプライン、Pythonインターフェースのレイテンシに加えて、700マイクロ秒程度しか導入されていない。
論文 参考訳(メタデータ) (2023-12-30T14:11:43Z) - Neural Episodic Control with State Abstraction [38.95199070504417]
既存のDeep Reinforcement Learning (DRL)アルゴリズムは、サンプルの非効率に悩まされている。
この研究は、状態抽象化を伴うニューラルエピソード制御(NECSA)を導入している。
オープンAI体育ドメインにおける MuJoCo タスクと Atari タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-01-27T01:55:05Z) - On the Effective Usage of Priors in RSS-based Localization [56.68864078417909]
本稿では、受信信号強度(RSS)指紋と畳み込みニューラルネットワークに基づくアルゴリズムLocUNetを提案する。
本稿では,密集市街地における局所化問題について検討する。
まず,LocUNetがRx位置やRxの事前分布を学習し,トレーニングデータから送信者(Tx)アソシエーションの好みを学習し,その性能を評価できることを示す。
論文 参考訳(メタデータ) (2022-11-28T00:31:02Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。