論文の概要: Reinforcement Learning for Omega-Regular Specifications on
Continuous-Time MDP
- arxiv url: http://arxiv.org/abs/2303.09528v1
- Date: Thu, 16 Mar 2023 17:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:17:50.577396
- Title: Reinforcement Learning for Omega-Regular Specifications on
Continuous-Time MDP
- Title(参考訳): 連続時間MDPにおけるOmega-Regular Specificationの強化学習
- Authors: Amin Falah, Shibashis Guha, Ashutosh Trivedi
- Abstract要約: 連続時間マルコフ決定過程 (Continuous-time Markov decision process, CTMDP) は、密度時間環境下でのシーケンシャルな意思決定を表現する標準モデルである。
本稿では,CTMDPに対するスカラー報酬信号への正しい翻訳を可能にするアプローチを提案する。
- 参考スコア(独自算出の注目度): 1.8262547855491456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous-time Markov decision processes (CTMDPs) are canonical models to
express sequential decision-making under dense-time and stochastic
environments. When the stochastic evolution of the environment is only
available via sampling, model-free reinforcement learning (RL) is the
algorithm-of-choice to compute optimal decision sequence. RL, on the other
hand, requires the learning objective to be encoded as scalar reward signals.
Since doing such translations manually is both tedious and error-prone, a
number of techniques have been proposed to translate high-level objectives
(expressed in logic or automata formalism) to scalar rewards for discrete-time
Markov decision processes (MDPs). Unfortunately, no automatic translation
exists for CTMDPs.
We consider CTMDP environments against the learning objectives expressed as
omega-regular languages. Omega-regular languages generalize regular languages
to infinite-horizon specifications and can express properties given in popular
linear-time logic LTL. To accommodate the dense-time nature of CTMDPs, we
consider two different semantics of omega-regular objectives: 1) satisfaction
semantics where the goal of the learner is to maximize the probability of
spending positive time in the good states, and 2) expectation semantics where
the goal of the learner is to optimize the long-run expected average time spent
in the ``good states" of the automaton. We present an approach enabling correct
translation to scalar reward signals that can be readily used by off-the-shelf
RL algorithms for CTMDPs. We demonstrate the effectiveness of the proposed
algorithms by evaluating it on some popular CTMDP benchmarks with omega-regular
objectives.
- Abstract(参考訳): 連続時間マルコフ決定プロセス(ctmdps)は、密集時間および確率的環境下での逐次意思決定を表現する標準モデルである。
環境の確率的進化がサンプリングによってのみ可能である場合、モデルフリー強化学習(RL)は最適な決定順序を計算するアルゴリズムである。
一方、RLは学習目的をスカラー報酬信号として符号化する必要がある。
このような手作業による翻訳は退屈で誤りやすいため、離散時間マルコフ決定プロセス(mdps)のスカラー報酬に高水準の目的(論理やオートマトン形式で表現される)を翻訳する手法がいくつか提案されている。
残念ながら、CTMDPには自動翻訳は存在しない。
我々は,オメガ規則言語として表現された学習目標に対するCTMDP環境について検討する。
オメガ正規言語は正規言語を無限水平仕様に一般化し、人気のある線形時間論理LTLで与えられる特性を表現できる。
CTMDPの高密度時間特性に対応するため、オメガ規則目的の2つの異なる意味を考察する。
1) 学習者の目標が良好な状態においてポジティブな時間を過ごす確率を最大化することにある満足度意味論
2) 学習者の目標である期待セマンティクスは、オートマトンの ``good states" に費やされる長期の期待平均時間を最適化することである。
本稿では,CTMDPの既製のRLアルゴリズムで容易に利用できるスカラー報酬信号への正しい翻訳を可能にする手法を提案する。
提案アルゴリズムの有効性を,オメガ正規目的のCTMDPベンチマークで評価することで実証する。
関連論文リスト
- Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - A PAC Learning Algorithm for LTL and Omega-regular Objectives in MDPs [5.946838062187346]
意思決定プロセス(MDP)におけるオメガ規則目的のためのモデルベース近似ほぼ正(PAC)学習アルゴリズムを提案する。
我々のアルゴリズムは、我々の理論を裏付ける実験を行うために、多くのサンプルしか必要としていないことを証明している。
論文 参考訳(メタデータ) (2023-10-18T18:33:41Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z) - Quick Adaptive Ternary Segmentation: An Efficient Decoding Procedure For
Hidden Markov Models [70.26374282390401]
ノイズの多い観測から元の信号(すなわち隠れ鎖)を復号することは、ほぼすべてのHMMに基づくデータ分析の主要な目標の1つである。
本稿では,多対数計算複雑性において隠れた列を復号化するための分法であるQuick Adaptive Ternary(QATS)を提案する。
論文 参考訳(メタデータ) (2023-05-29T19:37:48Z) - Stopping Criteria for Value Iteration on Stochastic Games with
Quantitative Objectives [0.0]
マルコフ決定過程(MDP)とゲーム(SG)の古典的解法は価値(VI)である
本稿では、SG 上での VI の停止基準を、全報酬と平均ペイオフで提供し、これらの設定で最初にアルゴリズムを出力する。
論文 参考訳(メタデータ) (2023-04-19T19:09:55Z) - Universal Learning Waveform Selection Strategies for Adaptive Target
Tracking [42.4297040396286]
本研究は,任意のレーダシーンにおいてベルマン最適性を実現するシーケンシャル波形選択法を開発した。
Context-Tree Weighting (CTW) 法のマルチアルファ版に基づくアルゴリズムは、波形・アジャイル追跡問題の幅広いクラスを最適に解くために使用できる。
論文 参考訳(メタデータ) (2022-02-10T19:21:03Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。