論文の概要: Efficient PAC Reinforcement Learning in Regular Decision Processes
- arxiv url: http://arxiv.org/abs/2105.06784v1
- Date: Fri, 14 May 2021 12:08:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 17:35:02.321931
- Title: Efficient PAC Reinforcement Learning in Regular Decision Processes
- Title(参考訳): 正規決定過程における効果的なPAC強化学習
- Authors: Alessandro Ronca and Giuseppe De Giacomo
- Abstract要約: 定期的な意思決定プロセスで強化学習を研究します。
我々の主な貢献は、最適に近いポリシーをパラメータのセットで時間内にPACを学習できることである。
- 参考スコア(独自算出の注目度): 99.02383154255833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently regular decision processes have been proposed as a well-behaved form
of non-Markov decision process. Regular decision processes are characterised by
a transition function and a reward function that depend on the whole history,
though regularly (as in regular languages). In practice both the transition and
the reward functions can be seen as finite transducers. We study reinforcement
learning in regular decision processes. Our main contribution is to show that a
near-optimal policy can be PAC-learned in polynomial time in a set of
parameters that describe the underlying decision process. We argue that the
identified set of parameters is minimal and it reasonably captures the
difficulty of a regular decision process.
- Abstract(参考訳): 近年,非マルコフ決定過程の形式として,規則的決定過程が提案されている。
規則的な決定プロセスは(通常の言語のように)歴史全体に依存する遷移関数と報酬関数によって特徴づけられる。
実際には、遷移関数と報酬関数の両方を有限トランスデューサと見なすことができる。
正規決定過程における強化学習について検討する。
我々の主な貢献は、決定過程を記述したパラメータの集合において、多項式時間で最適に近いポリシーをPAC学習できることである。
特定されたパラメータの集合は最小限であり、通常の決定プロセスの難しさを合理的に捉えていると論じる。
関連論文リスト
- Omega-Regular Decision Processes [11.917126383341593]
我々は,オメガレギュラー決定プロセス(ODP)を導入し,オメガレギュラー・ルックアヘッドに遷移と報酬関数の非マルコフ的側面を拡張した。
提案手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2023-12-14T01:58:51Z) - Recursively-Constrained Partially Observable Markov Decision Processes [13.8724466775267]
C-POMDPは連続的な決定ステップに対して最適なサブ構造特性に反することを示す。
C-POMDPのオンライン再計画は、この違反による不整合のため、しばしば効果がない。
本稿では,C-POMDPに履歴に依存したコスト制約を課す再帰的制約付きPOMDPを提案する。
論文 参考訳(メタデータ) (2023-10-15T00:25:07Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Regular Decision Processes for Grid Worlds [0.0]
本稿では、最近導入された非マルコフ報酬関数と遷移関数の両方をサポートする正規決定過程の実験的研究について述べる。
我々は、正規決定プロセスのためのツールチェーン、オンライン、インクリメンタルラーニングに関連するアルゴリズム拡張、モデルフリーおよびモデルベースソリューションアルゴリズムの実証的評価、そして正規だが非マルコフ的グリッドワールドにおける応用を提供する。
論文 参考訳(メタデータ) (2021-11-05T17:54:43Z) - Counterfactual Explanations in Sequential Decision Making Under
Uncertainty [27.763369810430653]
本研究では, 逐次的意思決定プロセスにおいて, 対実的説明を求める手法を開発した。
我々の問題定式化において、反実的説明は、少なくとも k 個の作用において異なる作用の別の列を特定する。
提案アルゴリズムは,不確実性の下での意思決定の促進に有用な洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2021-07-06T17:38:19Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Learning with Differentiable Perturbed Optimizers [54.351317101356614]
本稿では,操作を微分可能で局所的に一定ではない操作に変換する手法を提案する。
提案手法は摂動に依拠し,既存の解法とともに容易に利用することができる。
本稿では,この枠組みが,構造化予測において発達した損失の族とどのように結びつくかを示し,学習課題におけるそれらの使用に関する理論的保証を与える。
論文 参考訳(メタデータ) (2020-02-20T11:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。