論文の概要: Topological Guided Actor-Critic Modular Learning of Continuous Systems
with Temporal Objectives
- arxiv url: http://arxiv.org/abs/2304.10041v1
- Date: Thu, 20 Apr 2023 01:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 14:48:44.000064
- Title: Topological Guided Actor-Critic Modular Learning of Continuous Systems
with Temporal Objectives
- Title(参考訳): 時間的対象を持つ連続系のトポロジカルガイドアクタ・クリティカルモジュール学習
- Authors: Lening Li, Zhentian Qian
- Abstract要約: 本研究では,線形時間論理の高レベル仕様を与えられた連続状態力学系の公式なポリシー合成について検討する。
ニューラルネットワークを用いて、ハイブリッド製品状態空間の値関数とポリシー関数を近似する。
- 参考スコア(独自算出の注目度): 2.398608007786179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates the formal policy synthesis of continuous-state
stochastic dynamic systems given high-level specifications in linear temporal
logic. To learn an optimal policy that maximizes the satisfaction probability,
we take a product between a dynamic system and the translated automaton to
construct a product system on which we solve an optimal planning problem. Since
this product system has a hybrid product state space that results in reward
sparsity, we introduce a generalized optimal backup order, in reverse to the
topological order, to guide the value backups and accelerate the learning
process. We provide the optimality proof for using the generalized optimal
backup order in this optimal planning problem. Further, this paper presents an
actor-critic reinforcement learning algorithm when topological order applies.
This algorithm leverages advanced mathematical techniques and enjoys the
property of hyperparameter self-tuning. We provide proof of the optimality and
convergence of our proposed reinforcement learning algorithm. We use neural
networks to approximate the value function and policy function for hybrid
product state space. Furthermore, we observe that assigning integer numbers to
automaton states can rank the value or policy function approximated by neural
networks. To break the ordinal relationship, we use an individual neural
network for each automaton state's value (policy) function, termed modular
learning. We conduct two experiments. First, to show the efficacy of our
reinforcement learning algorithm, we compare it with baselines on a classic
control task, CartPole. Second, we demonstrate the empirical performance of our
formal policy synthesis framework on motion planning of a Dubins car with a
temporal specification.
- Abstract(参考訳): 本研究では,線形時間論理の高レベル仕様を与えられた連続状態確率力学系の公式なポリシー合成について検討する。
満足度確率を最大化する最適政策を学習するために、動的システムと翻訳されたオートマトンの間に積を取り、最適な計画問題を解く製品システムを構築する。
この製品システムは,報酬のスパーシティをもたらすハイブリッド製品状態空間を有するので,トポロジカルな順序に逆らって,一般化された最適バックアップ順序を導入し,値バックアップを誘導し,学習プロセスを加速する。
この最適計画問題において、一般化された最適バックアップ順序を用いるための最適性証明を提供する。
さらに, トポロジ的順序を適用した場合, アクター-批評家強化学習アルゴリズムを提案する。
このアルゴリズムは高度な数学的手法を活用し、ハイパーパラメータ自己チューニングの特性を享受する。
提案した強化学習アルゴリズムの最適性と収束性を示す。
ハイブリッド製品状態空間における価値関数とポリシー関数の近似にニューラルネットワークを用いる。
さらに、オートマトン状態への整数の割り当ては、ニューラルネットワークによって近似される値やポリシー関数をランク付けすることができる。
順序関係を断ち切るために、モジュール学習と呼ばれる各オートマトン状態の値(政治)関数に個別のニューラルネットワークを使用する。
私たちは2つの実験を行います。
まず、強化学習アルゴリズムの有効性を示すために、古典的な制御タスクであるCartPoleのベースラインと比較する。
第2に、時相仕様のDubins車の動作計画に関する公式なポリシー合成フレームワークの実証的な性能を実証する。
関連論文リスト
- Optimization of a Hydrodynamic Computational Reservoir through Evolution [58.720142291102135]
我々は,スタートアップが開発中の流体力学系のモデルと,計算貯水池としてインターフェースする。
我々は、進化探索アルゴリズムを用いて、読み出し時間と入力を波の振幅や周波数にどのようにマッピングするかを最適化した。
この貯水池システムに進化的手法を適用することで、手作業パラメータを用いた実装と比較して、XNORタスクの分離性が大幅に向上した。
論文 参考訳(メタデータ) (2023-04-20T19:15:02Z) - Fast Offline Policy Optimization for Large Scale Recommendation [74.78213147859236]
我々は、カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの近似を導出する。
私たちの貢献は3つの新しいアイデアの組み合わせに基づいている。
我々の推定器は、単純なアプローチよりも桁違いに速いが、等しく良いポリシーを生成する。
論文 参考訳(メタデータ) (2022-08-08T11:54:11Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling [8.14784681248878]
本稿では,現実的なスケジューリング問題を解決するための強化学習手法を提案する。
高性能コンピューティングコミュニティにおいて一般的に実行されるアルゴリズムであるColesky Factorizationに適用する。
我々のアルゴリズムは,アクター・クリティカル・アルゴリズム (A2C) と組み合わせてグラフニューラルネットワークを用いて,問題の適応表現をオンザフライで構築する。
論文 参考訳(メタデータ) (2020-11-09T10:57:21Z) - Formal Policy Synthesis for Continuous-Space Systems via Reinforcement
Learning [0.0]
有限メモリで決定論的な計算ポリシーに強化学習を適用する方法を示す。
我々は、学習した政策を最適な政策に収束させるために必要な仮定と理論を開発する。
本研究では,4次元のカートポールシステムと6次元のボート運転問題に対するアプローチを実証する。
論文 参考訳(メタデータ) (2020-05-04T08:36:25Z) - Learning to be Global Optimizer [28.88646928299302]
いくつかのベンチマーク関数に対して最適なネットワークとエスケープ能力アルゴリズムを学習する。
学習したアルゴリズムは、よく知られた古典最適化アルゴリズムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-03-10T03:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。