論文の概要: Omega-Regular Decision Processes
- arxiv url: http://arxiv.org/abs/2312.08602v1
- Date: Thu, 14 Dec 2023 01:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:23:50.289657
- Title: Omega-Regular Decision Processes
- Title(参考訳): オメガレギュラー決定過程
- Authors: Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh
Trivedi, Dominik Wojtczak
- Abstract要約: 我々は,オメガレギュラー決定プロセス(ODP)を導入し,オメガレギュラー・ルックアヘッドに遷移と報酬関数の非マルコフ的側面を拡張した。
提案手法の有効性を実験的に検証した。
- 参考スコア(独自算出の注目度): 11.917126383341593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regular decision processes (RDPs) are a subclass of non-Markovian decision
processes where the transition and reward functions are guarded by some regular
property of the past (a lookback). While RDPs enable intuitive and succinct
representation of non-Markovian decision processes, their expressive power
coincides with finite-state Markov decision processes (MDPs). We introduce
omega-regular decision processes (ODPs) where the non-Markovian aspect of the
transition and reward functions are extended to an omega-regular lookahead over
the system evolution. Semantically, these lookaheads can be considered as
promises made by the decision maker or the learning agent about her future
behavior. In particular, we assume that, if the promised lookaheads are not
met, then the payoff to the decision maker is $\bot$ (least desirable payoff),
overriding any rewards collected by the decision maker. We enable optimization
and learning for ODPs under the discounted-reward objective by reducing them to
lexicographic optimization and learning over finite MDPs. We present
experimental results demonstrating the effectiveness of the proposed reduction.
- Abstract(参考訳): 正規決定過程 (RDP) は非マルコフ的決定過程のサブクラスであり、遷移関数と報酬関数は過去の通常の性質によって守られている(見返り)。
RDPは非マルコフ決定過程の直感的かつ簡潔な表現を可能にするが、その表現力は有限状態マルコフ決定過程(MDP)と一致する。
我々は,オメガ規則決定プロセス(ODP)を導入し,遷移と報酬関数の非マルコフ的側面をシステム進化上のオメガ規則的なルックアヘッドに拡張する。
意味的に、これらのルックアヘッドは、意思決定者または学習エージェントが将来の行動について行う約束と見なすことができる。
特に、約束されたルックアヘッドが満たされていない場合、意思決定者への報酬は$\bot$(望ましい報酬)と仮定し、意思決定者によって収集された報酬をオーバーライドする。
我々は, 有限MDP上での語彙最適化と学習に還元することで, 減算対象によるODPの最適化と学習を可能にする。
提案手法の有効性を示す実験結果を示す。
関連論文リスト
- Fair Resource Allocation in Weakly Coupled Markov Decision Processes [3.824858358548714]
マルコフ決定過程の弱結合としてモデル化された逐次的意思決定環境における資源配分について考察する。
我々は、従来の実用的(total-sum)目的ではなく、一般化されたジーニ関数を用いた公正性の定義を採用する。
論文 参考訳(メタデータ) (2024-11-14T20:40:55Z) - Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - End-to-End Policy Gradient Method for POMDPs and Explainable Agents [2.1700203922407493]
エンド・ツー・エンド・トレーニングにより隠れた状態を推定するRLアルゴリズムを提案し、状態遷移グラフとして推定を可視化する。
実験により,提案アルゴリズムは単純なPOMDP問題を解くことができ,可視化によってエージェントの動作が人間に解釈可能であることを示した。
論文 参考訳(メタデータ) (2023-04-19T15:45:52Z) - Explainable Predictive Decision Mining for Operational Support [0.3232625980782302]
決定マイニングは、プロセスの決定ポイントにおけるプロセスインスタンスのルーティングを記述/予測することを目的としています。
意思決定マイニングの既存のテクニックは、意思決定の記述に重点を置いているが、その予測には重点を置いていない。
提案手法は, SHAP値を用いた予測決定についての説明を行い, 積極的な行動の誘発を支援する。
論文 参考訳(メタデータ) (2022-10-30T09:27:41Z) - Efficient PAC Reinforcement Learning in Regular Decision Processes [99.02383154255833]
定期的な意思決定プロセスで強化学習を研究します。
我々の主な貢献は、最適に近いポリシーをパラメータのセットで時間内にPACを学習できることである。
論文 参考訳(メタデータ) (2021-05-14T12:08:46Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。