論文の概要: Policy Synthesis and Reinforcement Learning for Discounted LTL
- arxiv url: http://arxiv.org/abs/2305.17115v2
- Date: Mon, 29 May 2023 23:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 11:33:23.789299
- Title: Policy Synthesis and Reinforcement Learning for Discounted LTL
- Title(参考訳): 分散LTLのためのポリシー合成と強化学習
- Authors: Rajeev Alur, Osbert Bastani, Kishor Jothimurugan, Mateo Perez, Fabio
Somenzi, Ashutosh Trivedi
- Abstract要約: 本研究では,未知の遷移確率を持つ決定過程における政策における割引合成の利用について検討する。
すべての割引要因が同一である場合に、報酬機を介して割引済の割引を割引済の報酬に還元する方法を示す。
- 参考スコア(独自算出の注目度): 18.619566812199743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The difficulty of manually specifying reward functions has led to an interest
in using linear temporal logic (LTL) to express objectives for reinforcement
learning (RL). However, LTL has the downside that it is sensitive to small
perturbations in the transition probabilities, which prevents probably
approximately correct (PAC) learning without additional assumptions. Time
discounting provides a way of removing this sensitivity, while retaining the
high expressivity of the logic. We study the use of discounted LTL for policy
synthesis in Markov decision processes with unknown transition probabilities,
and show how to reduce discounted LTL to discounted-sum reward via a reward
machine when all discount factors are identical.
- Abstract(参考訳): 報酬関数を手動で特定することの難しさは、強化学習(RL)の目的を表現するために線形時間論理(LTL)を使うことに関心を惹きつけた。
しかし、ltlは遷移確率の小さな摂動に敏感であり、追加の仮定なしにほぼ正しい(pac)学習を妨げているという欠点がある。
時間割引は、論理の高表現性を保ちながら、この感度を除去する方法を提供する。
マルコフ決定過程における政策合成における割引LTLの利用について検討し,全ての割引要因が同一である場合,報酬機を介して割引LTLを割引報酬に還元する方法を示す。
関連論文リスト
- Settling Constant Regrets in Linear Markov Decision Processes [57.34287648914407]
強化学習(RL)における絶え間ない後悔の保証について検討する。
我々は不特定線形マルコフ決定過程(MDP)に対するアルゴリズムCert-LSVI-UCBを導入する。
Cert-LSVI-UCB は $tildemathcalO(d3H5/Delta)$ の累積後悔と高い確率を持つ MDP に対して、$zeta$ が $tildemathcalO(Delta / (sqrtd) 以下であることを仮定する。
論文 参考訳(メタデータ) (2024-04-16T17:23:19Z) - Layer-wise Feedback Propagation [53.00944147633484]
本稿では、ニューラルネットワークのような予測器のための新しいトレーニング手法であるLFP(Layer-wise Feedback Propagation)を提案する。
LFPは、与えられたタスクの解決に対するそれぞれの貢献に基づいて、個々のコネクションに報酬を割り当てる。
各種モデルやデータセットの勾配降下に匹敵する性能を達成できることの有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - Logarithmic Switching Cost in Reinforcement Learning beyond Linear MDPs [31.673857053336352]
本稿では,時間ホリゾン$H$において,エピソード数と線形数に切り替えコストの対数性を持たせることで,ほぼ最適の後悔を実現するアルゴリズムを提案する。
また、ELEANOR-LowSwitchingで使われる「二重化トリック」を一般化線形関数近似にさらに活用できることを示す。
論文 参考訳(メタデータ) (2023-02-24T05:14:27Z) - Low-rank Optimal Transport: Approximation, Statistics and Debiasing [51.50788603386766]
フロゼットボン2021ローランで提唱された低ランク最適輸送(LOT)アプローチ
LOTは興味のある性質と比較した場合、エントロピー正則化の正当な候補と見なされる。
本稿では,これらの領域のそれぞれを対象とし,計算OTにおける低ランクアプローチの影響を補強する。
論文 参考訳(メタデータ) (2022-05-24T20:51:37Z) - Synthesis from Satisficing and Temporal Goals [21.14507575500482]
既存のアプローチでは、割引合成からの合成技術とDS報酬の最適化を組み合わせているが、音響アルゴリズムは得られていない。
合成と満足なDS報酬(しきい値を達成するリワード)を組み合わせた別のアプローチは、整数割引係数に対して健全で完備であるが、実際には分数割引係数が望まれる。
この研究は、DS報酬を分数割引係数で提示することから合成するための第1音素アルゴリズムへの既存の充足アプローチを拡張した。
論文 参考訳(メタデータ) (2022-05-20T23:46:31Z) - Transitive Learning: Exploring the Transitivity of Degradations for
Blind Super-Resolution [89.4784684863403]
経時劣化に対する盲目超解像法 (TLSR) の新しいTransitive Learning法を提案する。
我々は, 広く用いられている添加物および畳み込み劣化を含む劣化の推移性を分析し, 実証する。
提案するTLSRは性能が向上し,最先端のブラインドSR手法と比較して時間の浪費が少ないことを示す。
論文 参考訳(メタデータ) (2021-03-29T02:51:09Z) - Reinforcement Learning Based Temporal Logic Control with Soft
Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。
ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文 参考訳(メタデータ) (2021-01-25T18:09:11Z) - Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文 参考訳(メタデータ) (2020-10-14T03:49:16Z) - What to Do When You Can't Do It All: Temporal Logic Planning with Soft
Temporal Logic Constraints [28.072597424460472]
ソフト仕様の集合から最適な選択を満足する無限軌跡を見つけることを目的とした時間論理計画問題を考える。
提案アルゴリズムはまず,計画問題を最小限のコストで計算できる製品を構築する。
このような短いラッソを計算することは難しいが、短いラッソを合成するための効率的なグリージーなアプローチも導入する。
論文 参考訳(メタデータ) (2020-08-05T04:18:59Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。