論文の概要: An Optical Control Environment for Benchmarking Reinforcement Learning
Algorithms
- arxiv url: http://arxiv.org/abs/2203.12114v2
- Date: Sun, 1 Oct 2023 15:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 21:40:29.850515
- Title: An Optical Control Environment for Benchmarking Reinforcement Learning
Algorithms
- Title(参考訳): ベンチマーク強化学習アルゴリズムのための光学制御環境
- Authors: Abulikemu Abuduweili and Changliu Liu
- Abstract要約: 深層強化学習は様々な科学的問題に対処する可能性がある。
本稿では,学習用コントローラのための光学シミュレーション環境を提案する。
その結果,従来のシミュレーション環境よりも環境の優位性が示された。
- 参考スコア(独自算出の注目度): 7.6418236982756955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has the potential to address various scientific
problems. In this paper, we implement an optics simulation environment for
reinforcement learning based controllers. The environment captures the essence
of nonconvexity, nonlinearity, and time-dependent noise inherent in optical
systems, offering a more realistic setting. Subsequently, we provide the
benchmark results of several reinforcement learning algorithms on the proposed
simulation environment. The experimental findings demonstrate the superiority
of off-policy reinforcement learning approaches over traditional control
algorithms in navigating the intricacies of complex optical control
environments. The code of the paper is available at
https://github.com/Walleclipse/Reinforcement-Learning-Pulse-Stacking.
- Abstract(参考訳): 深層強化学習は様々な科学的問題に対処する可能性がある。
本稿では,強化学習ベースコントローラのための光学シミュレーション環境を実装した。
この環境は、光学系固有の非凸性、非線形性、時間依存ノイズの本質を捉え、より現実的な設定を提供する。
次に,提案したシミュレーション環境における強化学習アルゴリズムのベンチマーク結果を示す。
実験の結果, 複雑な光制御環境の複雑度をナビゲートする従来の制御アルゴリズムよりも, オフポリシー強化学習手法が優れていることが示された。
論文のコードはhttps://github.com/walleclipse/reinforcement-learning-pulse-stackingで入手できる。
関連論文リスト
- Model-based deep reinforcement learning for accelerated learning from flow simulations [0.0]
フロー制御アプリケーションにおけるモデルベース強化学習の利点を実証する。
具体的には, 流れシミュレーションから採取した軌道と, 環境モデルのアンサンブルから採取した軌道とを交互に組み合わせることで, 政策を最適化する。
モデルベースの学習は、流動的なピンボールテストケースに対して、トレーニング全体の時間を最大85%削減する。
論文 参考訳(メタデータ) (2024-02-26T13:01:45Z) - Meta-Learning Strategies through Value Maximization in Neural Networks [7.285835869818669]
完全に規範的な目的に対して制御信号を効率よく最適化できる学習活動フレームワークを提案する。
本稿では,一般的なメタ学習アルゴリズムにおける近似の影響について検討する。
設定全体では、学習の早い段階でタスクの容易な側面に適用する場合、制御の取り組みが最も有益であることが分かります。
論文 参考訳(メタデータ) (2023-10-30T18:29:26Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Credit Assignment in Neural Networks through Deep Feedback Control [59.14935871979047]
ディープフィードバックコントロール(Deep Feedback Control, DFC)は、フィードバックコントローラを使用して、望ましい出力ターゲットにマッチするディープニューラルネットワークを駆動し、クレジット割り当てに制御信号を使用する新しい学習方法である。
学習規則は空間と時間において完全に局所的であり、幅広い接続パターンに対するガウス・ニュートンの最適化を近似する。
さらに,DFCと皮質錐体ニューロンのマルチコンパートメントモデルと,局所的な電圧依存性のシナプス可塑性規則を関連づける。
論文 参考訳(メタデータ) (2021-06-15T05:30:17Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Deluca -- A Differentiable Control Library: Environments, Methods, and
Benchmarking [52.44199258132215]
我々は、微分可能な物理学とロボティクス環境のオープンソースライブラリを提示する。
ライブラリには,OpenAI Gymの古典的なコントロール設定など,いくつかのポピュラーな環境がある。
ライブラリを使用して得られた新しい科学的結果のいくつかのユースケースを提供します。
論文 参考訳(メタデータ) (2021-02-19T15:06:47Z) - Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。
PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文 参考訳(メタデータ) (2020-12-29T09:01:47Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。