論文の概要: Scaling Directed Controller Synthesis via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.05393v1
- Date: Fri, 7 Oct 2022 20:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:20:28.097777
- Title: Scaling Directed Controller Synthesis via Reinforcement Learning
- Title(参考訳): 強化学習によるスケーリング指向コントローラ合成
- Authors: Tom\'as Delgado, V\'ictor Braberman, Sebastian Uchitel
- Abstract要約: Directed Synthesis Controller Techniqueは、離散イベントシステムにおける非ブロッキング特性の解を、ビッグステート空間の縮小部分を調べることによって見つける。
本研究では,強化学習に基づく新たな学習手法を提案する。
単純で汎用的な機能セットにより、より大規模なインスタンスに一般化する方法で、問題の小さなバージョンで学習できることが示される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Directed Controller Synthesis technique finds solutions for the non-blocking
property in discrete event systems by exploring a reduced portion of the
exponentially big state space, using best-first search. Aiming to minimize the
explored states, it is currently guided by a domain-independent handcrafted
heuristic, with which it reaches state-of-the-art performance. In this work, we
propose a new method for obtaining heuristics based on Reinforcement Learning.
The synthesis algorithm is framed as an RL task with an unbounded action space
and a modified version of DQN is used. With a simple and general set of
features, we show that it is possible to learn heuristics on small versions of
a problem in a way that generalizes to the larger instances. Our agents learn
from scratch and outperform the existing heuristic overall, in instances unseen
during training.
- Abstract(参考訳): 有向制御合成手法は、最適優先探索を用いて指数関数的に大きい状態空間の縮小部分を調べることによって、離散イベントシステムにおける非ブロッキング特性の解を見つける。
探索された状態を最小化するために、現在、ドメインに依存しない手作りのヒューリスティックに導かれ、最先端のパフォーマンスに到達している。
本研究では,強化学習に基づくヒューリスティックスを得るための新しい手法を提案する。
合成アルゴリズムは、非有界な作用空間を持つRLタスクとしてフレーム化され、DQNの修正版が使用される。
単純で一般的な特徴セットを用いて、より大規模なインスタンスに一般化する方法で、問題の小さなバージョンに関するヒューリスティックスを学ぶことができることを示す。
私たちのエージェントはスクラッチから学び、トレーニング中に見つからない例で既存のヒューリスティックな全体よりも優れています。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Safe-Critical Modular Deep Reinforcement Learning with Temporal Logic
through Gaussian Processes and Control Barrier Functions [3.5897534810405403]
強化学習(Reinforcement Learning, RL)は,現実のアプリケーションに対して限られた成功を収める,有望なアプローチである。
本稿では,複数の側面からなる学習型制御フレームワークを提案する。
ECBFをベースとしたモジュラーディープRLアルゴリズムは,ほぼ完全な成功率を達成し,高い確率で安全性を保護することを示す。
論文 参考訳(メタデータ) (2021-09-07T00:51:12Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。