論文の概要: STL-Based Synthesis of Feedback Controllers Using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.01022v1
- Date: Fri, 2 Dec 2022 08:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:40:08.394902
- Title: STL-Based Synthesis of Feedback Controllers Using Reinforcement Learning
- Title(参考訳): 強化学習を用いたSTLに基づくフィードバック制御器の合成
- Authors: Nikhil Kumar Singh and Indranil Saha
- Abstract要約: 深層強化学習(DRL)は、未知の力学を持つ様々な複雑なシステムに対するフィードバックコントローラ(エージェント)の合成に使用される可能性がある。
RLでは、報酬関数はこれらのエージェントの望ましい振る舞いを特定する上で重要な役割を果たす。
信号時間論理(STL)の量的意味論を用いて,リアルタイムに報酬を生成する体系的な方法を提案する。
我々は,STLに基づく強化学習機構をいくつかの複雑な連続制御ベンチマーク上で評価し,STLのセマンティクスと文献で利用可能なセマンティクスを,制御エージェントの合成における有効性の観点から比較した。
- 参考スコア(独自算出の注目度): 8.680676599607125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) has the potential to be used for
synthesizing feedback controllers (agents) for various complex systems with
unknown dynamics. These systems are expected to satisfy diverse safety and
liveness properties best captured using temporal logic. In RL, the reward
function plays a crucial role in specifying the desired behaviour of these
agents. However, the problem of designing the reward function for an RL agent
to satisfy complex temporal logic specifications has received limited attention
in the literature. To address this, we provide a systematic way of generating
rewards in real-time by using the quantitative semantics of Signal Temporal
Logic (STL), a widely used temporal logic to specify the behaviour of
cyber-physical systems. We propose a new quantitative semantics for STL having
several desirable properties, making it suitable for reward generation. We
evaluate our STL-based reinforcement learning mechanism on several complex
continuous control benchmarks and compare our STL semantics with those
available in the literature in terms of their efficacy in synthesizing the
controller agent. Experimental results establish our new semantics to be the
most suitable for synthesizing feedback controllers for complex continuous
dynamical systems through reinforcement learning.
- Abstract(参考訳): 深層強化学習(drl)は、未知のダイナミクスを持つ複雑なシステムに対するフィードバックコントローラ(agents)の合成に使用される可能性がある。
これらのシステムは多種多様な安全性と生活性を満たすことが期待されている。
RLでは、報酬関数はこれらのエージェントの望ましい振る舞いを特定する上で重要な役割を果たす。
しかし、複雑な時相論理仕様を満たすためにRLエージェントの報酬関数を設計する問題は、文献ではあまり注目されていない。
そこで我々は,サイバー物理システムの振る舞いを特定するために広く利用されている時間論理であるSignal Temporal Logic (STL) の定量的意味を利用して,リアルタイムに報酬を生成する体系的な方法を提案する。
本稿では,いくつかの望ましい特性を有するstlのための新しい量的意味論を提案する。
我々は,stlを用いた強化学習機構をいくつかの複雑な連続制御ベンチマークで評価し,stlのセマンティクスと,制御エージェントの合成における有効性について比較した。
実験結果は,強化学習による複雑な連続力学系に対するフィードバックコントローラの合成に最も適した新しい意味論を確立した。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents [9.529492371336286]
強化学習(Reinforcement Learning、RL)は、人工エージェントが多様な振る舞いを学習できるようにするために大きな進歩を遂げてきた。
論理仕様誘導動的タスクサンプリング(LSTS)と呼ばれる新しい手法を提案する。
LSTSは、エージェントを初期状態から目標状態へ誘導するRLポリシーのセットを、ハイレベルなタスク仕様に基づいて学習する。
論文 参考訳(メタデータ) (2024-02-06T04:00:21Z) - ReACT: Reinforcement Learning for Controller Parametrization using
B-Spline Geometries [0.0]
本研究は,N次元B-スプライン測地(BSG)を用いた深部強化学習(DRL)を用いた新しいアプローチを提案する。
本稿では,操作条件に依存する複雑な振る舞いを持つシステムのクラスであるパラメータ変量システムの制御に焦点をあてる。
多数の動作条件に依存するコントローラパラメータをマッピングするために,BSGを導入し,適応処理をより効率的にする。
論文 参考訳(メタデータ) (2024-01-10T16:27:30Z) - Verified Compositional Neuro-Symbolic Control for Stochastic Systems
with Temporal Logic Tasks [11.614036749291216]
自律エージェントのためのニューラルネットワーク(NN)コントローラを学ぶために、最近いくつかの方法が提案されている。
これらのアプローチにおける重要な課題は、しばしば安全保証が欠如しているか、提供された保証が現実的でないことである。
本稿では,訓練されたNNコントローラの時間的構成が存在するかどうかを確認することで,この問題に対処することを目的とする。
論文 参考訳(メタデータ) (2023-11-17T20:51:24Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - ASR: Attention-alike Structural Re-parameterization [53.019657810468026]
本稿では,アテンション機構の有効性を享受しながら,与えられたネットワークに対してSRPを実現するための,シンプルなアテンション型構造的再パラメータ化(ASR)を提案する。
本稿では,統計的観点から広範囲にわたる実験を行い,Stripe Observationという興味深い現象を発見し,チャネル注意値が訓練中に一定のベクトルに素早く接近することを明らかにする。
論文 参考訳(メタデータ) (2023-04-13T08:52:34Z) - Funnel-based Reward Shaping for Signal Temporal Logic Tasks in
Reinforcement Learning [0.0]
本稿では,STL(Signal Temporal Logic)仕様を適用した制御器を学習するために,抽出可能な強化学習アルゴリズムを提案する。
異なる環境を用いた複数のSTLタスクに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-30T19:38:21Z) - Model-based Reinforcement Learning from Signal Temporal Logic
Specifications [0.17205106391379021]
本稿では,報酬/コスト関数の代替として,STL(Signal Temporal Logic)と呼ばれる形式仕様言語を用いて,望まれるハイレベルロボット動作を表現することを提案する。
提案アルゴリズムは、ピック・アンド・プレース・ロボットアームなどのロボットシステムのシミュレーションと、自律走行車に対する適応的なクルーズ制御を実証的に評価する。
論文 参考訳(メタデータ) (2020-11-10T07:31:47Z) - Multilinear Compressive Learning with Prior Knowledge [106.12874293597754]
マルチリニア圧縮学習(MCL)フレームワークは、マルチリニア圧縮センシングと機械学習をエンドツーエンドシステムに統合する。
MCLの背後にある主要なアイデアは、下流学習タスクの信号から重要な特徴を捉えることのできるテンソル部分空間の存在を仮定することである。
本稿では、上記の要件、すなわち、関心の信号が分離可能なテンソル部分空間をどうやって見つけるかという、2つの要件に対処する新しい解決策を提案する。
論文 参考訳(メタデータ) (2020-02-17T19:06:05Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。