論文の概要: Policy Synthesis and Reinforcement Learning for Discounted LTL
- arxiv url: http://arxiv.org/abs/2305.17115v1
- Date: Fri, 26 May 2023 17:32:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 13:06:35.954840
- Title: Policy Synthesis and Reinforcement Learning for Discounted LTL
- Title(参考訳): 分散LTLのためのポリシー合成と強化学習
- Authors: Rajeev Alur, Osbert Bastani, Kishor Jothimurugan, Mateo Perez, Fabio
Somenzi, Ashutosh Trivedi
- Abstract要約: 本研究では,未知の遷移確率を持つ決定過程における政策における割引合成の利用について検討する。
すべての割引要因が同一である場合に、報酬機を介して割引済の割引を割引済の報酬に還元する方法を示す。
- 参考スコア(独自算出の注目度): 18.619566812199743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The difficulty of manually specifying reward functions has led to an interest
in using linear temporal logic (LTL) to express objectives for reinforcement
learning (RL). However, LTL has the downside that it is sensitive to small
perturbations in the transition probabilities, which prevents probably
approximately correct (PAC) learning without additional assumptions. Time
discounting provides a way of removing this sensitivity, while retaining the
high expressivity of the logic. We study the use of discounted LTL for policy
synthesis in Markov decision processes with unknown transition probabilities,
and show how to reduce discounted LTL to discounted-sum reward via a reward
machine when all discount factors are identical.
- Abstract(参考訳): 報酬関数を手動で特定することの難しさは、強化学習(RL)の目的を表現するために線形時間論理(LTL)を使うことに関心を惹きつけた。
しかし、ltlは遷移確率の小さな摂動に敏感であり、追加の仮定なしにほぼ正しい(pac)学習を妨げているという欠点がある。
時間割引は、論理の高表現性を保ちながら、この感度を除去する方法を提供する。
マルコフ決定過程における政策合成における割引LTLの利用について検討し,全ての割引要因が同一である場合,報酬機を介して割引LTLを割引報酬に還元する方法を示す。
関連論文リスト
- DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications [59.01527054553122]
リニア時間論理(LTL)は、強化学習(RL)における複雑で時間的に拡張されたタスクを特定する強力なフォーマリズムとして最近採用されている。
既存のアプローチはいくつかの欠点に悩まされており、それらは有限水平フラグメントにのみ適用でき、最適以下の解に制限され、安全制約を適切に扱えない。
本研究では,これらの問題に対処するための新しい学習手法を提案する。
提案手法は, 自動仕様のセマンティクスを明示的に表現したB"uchiaの構造を利用して, 所望の式を満たすための真理代入の順序を条件としたポリシーを学習する。
論文 参考訳(メタデータ) (2024-10-06T21:30:38Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Low-rank Optimal Transport: Approximation, Statistics and Debiasing [51.50788603386766]
フロゼットボン2021ローランで提唱された低ランク最適輸送(LOT)アプローチ
LOTは興味のある性質と比較した場合、エントロピー正則化の正当な候補と見なされる。
本稿では,これらの領域のそれぞれを対象とし,計算OTにおける低ランクアプローチの影響を補強する。
論文 参考訳(メタデータ) (2022-05-24T20:51:37Z) - Synthesis from Satisficing and Temporal Goals [21.14507575500482]
既存のアプローチでは、割引合成からの合成技術とDS報酬の最適化を組み合わせているが、音響アルゴリズムは得られていない。
合成と満足なDS報酬(しきい値を達成するリワード)を組み合わせた別のアプローチは、整数割引係数に対して健全で完備であるが、実際には分数割引係数が望まれる。
この研究は、DS報酬を分数割引係数で提示することから合成するための第1音素アルゴリズムへの既存の充足アプローチを拡張した。
論文 参考訳(メタデータ) (2022-05-20T23:46:31Z) - Transitive Learning: Exploring the Transitivity of Degradations for
Blind Super-Resolution [89.4784684863403]
経時劣化に対する盲目超解像法 (TLSR) の新しいTransitive Learning法を提案する。
我々は, 広く用いられている添加物および畳み込み劣化を含む劣化の推移性を分析し, 実証する。
提案するTLSRは性能が向上し,最先端のブラインドSR手法と比較して時間の浪費が少ないことを示す。
論文 参考訳(メタデータ) (2021-03-29T02:51:09Z) - Reinforcement Learning Based Temporal Logic Control with Soft
Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。
ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文 参考訳(メタデータ) (2021-01-25T18:09:11Z) - Reinforcement Learning Based Temporal Logic Control with Maximum
Probabilistic Satisfaction [5.337302350000984]
本稿では,制御ポリシを合成するモデルレス強化学習アルゴリズムを提案する。
RLをベースとした制御合成の有効性をシミュレーションおよび実験により実証した。
論文 参考訳(メタデータ) (2020-10-14T03:49:16Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。