論文の概要: Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2210.05393v2
- Date: Wed, 3 May 2023 20:23:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 19:27:53.052605
- Title: Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach
- Title(参考訳): オンザフライ制御合成のための探索政策--強化学習アプローチ
- Authors: Tom\'as Delgado, Marco S\'anchez Sorondo, V\'ictor Braberman,
Sebasti\'an Uchitel
- Abstract要約: 強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controller synthesis is in essence a case of model-based planning for
non-deterministic environments in which plans (actually ''strategies'') are
meant to preserve system goals indefinitely. In the case of supervisory control
environments are specified as the parallel composition of state machines and
valid strategies are required to be ''non-blocking'' (i.e., always enabling the
environment to reach certain marked states) in addition to safe (i.e., keep the
system within a safe zone). Recently, On-the-fly Directed Controller Synthesis
techniques were proposed to avoid the exploration of the entire -and
exponentially large-environment space, at the cost of non-maximal
permissiveness, to either find a strategy or conclude that there is none. The
incremental exploration of the plant is currently guided by a
domain-independent human-designed heuristic. In this work, we propose a new
method for obtaining heuristics based on Reinforcement Learning (RL). The
synthesis algorithm is thus framed as an RL task with an unbounded action space
and a modified version of DQN is used. With a simple and general set of
features that abstracts both states and actions, we show that it is possible to
learn heuristics on small versions of a problem that generalize to the larger
instances, effectively doing zero-shot policy transfer. Our agents learn from
scratch in a highly partially observable RL task and outperform the existing
heuristic overall, in instances unseen during training.
- Abstract(参考訳): コントローラ合成は本質的には、計画(実際には「戦略」)がシステム目標を無期限に保持することを意図した非決定論的環境のためのモデルベースの計画である。
監視制御環境は、状態機械の並列構成として指定され、安全(つまり安全なゾーン内にシステムを保持する)に加えて、有効な戦略は「非ブロッキング」(環境が常に特定のマークされた状態に到達できるようにする)であることが要求される。
近年,非最大許容性(non-maximal permissiveness)を犠牲にして,広帯域かつ指数関数的に大きな環境空間の探索を避けるために,オンザフライ指向制御合成手法が提案されている。
この植物の漸進的な探索は、現在ドメインに依存しない人間設計のヒューリスティックによって導かれる。
本研究では,強化学習(RL)に基づくヒューリスティックスを得るための新しい手法を提案する。
したがって、合成アルゴリズムは、未有界な作用空間を持つRLタスクとしてフレーム化され、DQNの修正版が使用される。
状態とアクションの両方を抽象化するシンプルで一般的な機能のセットにより、より大規模なインスタンスに一般化した問題の小さなバージョンでヒューリスティックを学ぶことができ、効果的にゼロショットポリシー転送を行うことができる。
我々のエージェントは、非常に部分的に観察可能なRLタスクでスクラッチから学び、トレーニング中に見つからない場合において、既存のヒューリスティックな全体よりも優れています。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。