論文の概要: Regular Decision Processes for Grid Worlds
- arxiv url: http://arxiv.org/abs/2111.03647v1
- Date: Fri, 5 Nov 2021 17:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 15:36:58.951204
- Title: Regular Decision Processes for Grid Worlds
- Title(参考訳): グリッド世界の規則的決定過程
- Authors: Nicky Lenaers and Martijn van Otterlo
- Abstract要約: 本稿では、最近導入された非マルコフ報酬関数と遷移関数の両方をサポートする正規決定過程の実験的研究について述べる。
我々は、正規決定プロセスのためのツールチェーン、オンライン、インクリメンタルラーニングに関連するアルゴリズム拡張、モデルフリーおよびモデルベースソリューションアルゴリズムの実証的評価、そして正規だが非マルコフ的グリッドワールドにおける応用を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Markov decision processes are typically used for sequential decision making
under uncertainty. For many aspects however, ranging from constrained or safe
specifications to various kinds of temporal (non-Markovian) dependencies in
task and reward structures, extensions are needed. To that end, in recent years
interest has grown into combinations of reinforcement learning and temporal
logic, that is, combinations of flexible behavior learning methods with robust
verification and guarantees. In this paper we describe an experimental
investigation of the recently introduced regular decision processes that
support both non-Markovian reward functions as well as transition functions. In
particular, we provide a tool chain for regular decision processes, algorithmic
extensions relating to online, incremental learning, an empirical evaluation of
model-free and model-based solution algorithms, and applications in regular,
but non-Markovian, grid worlds.
- Abstract(参考訳): マルコフ決定プロセスは一般に不確実性下での逐次意思決定に使用される。
しかし、多くの面において、制約のある仕様や安全な仕様からタスクや報酬構造における様々な時間的(非マルコフ的)依存まで、拡張が必要である。
この目的のために、近年、強化学習と時間論理の組み合わせ、すなわち、堅牢な検証と保証を備えた柔軟な行動学習手法の組み合わせに注目が集まっている。
本稿では,最近導入された非マルコフ報酬関数と遷移関数の両方をサポートする規則的決定過程について実験的に検討する。
特に、正規決定プロセスのためのツールチェーン、オンライン、インクリメンタルラーニングに関連するアルゴリズム拡張、モデルフリーおよびモデルベースソリューションアルゴリズムの実証的評価、そして正規だが非マルコフ的グリッドワールドにおける応用を提供する。
関連論文リスト
- Control randomisation approach for policy gradient and application to reinforcement learning in optimal switching [0.0]
本稿では,連続時間強化学習に適した政策勾配法に関する総合的な枠組みを提案する。
これは制御問題とランダム化問題の間の接続に基づいており、マルコフ的連続時間制御問題の様々なクラスにまたがる応用を可能にする。
論文 参考訳(メタデータ) (2024-04-27T15:41:06Z) - Model-Based Reinforcement Learning Control of Reaction-Diffusion
Problems [0.0]
強化学習はいくつかのアプリケーション、特にゲームにおいて意思決定に応用されている。
輸送されたフィールドの流れを駆動する2つの新しい報酬関数を導入する。
その結果、これらのアプリケーションで特定の制御をうまく実装できることが判明した。
論文 参考訳(メタデータ) (2024-02-22T11:06:07Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Dynamic deep-reinforcement-learning algorithm in Partially Observed
Markov Decision Processes [6.729108277517129]
本研究は、部分的に観測可能なマルコフ決定過程を解くために、アクションシーケンス包含の利点を示す。
開発したアルゴリズムは、異なる種類の外部乱れに対して、コントローラ性能の強化されたロバスト性を示した。
論文 参考訳(メタデータ) (2023-07-29T08:52:35Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - Efficient PAC Reinforcement Learning in Regular Decision Processes [99.02383154255833]
定期的な意思決定プロセスで強化学習を研究します。
我々の主な貢献は、最適に近いポリシーをパラメータのセットで時間内にPACを学習できることである。
論文 参考訳(メタデータ) (2021-05-14T12:08:46Z) - Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。
提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。
本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文 参考訳(メタデータ) (2020-02-20T11:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。