論文の概要: Efficient Reinforcement Learning in Factored MDPs with Application to
Constrained RL
- arxiv url: http://arxiv.org/abs/2008.13319v3
- Date: Wed, 10 Mar 2021 01:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 06:33:30.318049
- Title: Efficient Reinforcement Learning in Factored MDPs with Application to
Constrained RL
- Title(参考訳): 因子MDPの効率的な強化学習と制約付きRLへの応用
- Authors: Xiaoyu Chen, Jiachen Hu, Lihong Li, Liwei Wang
- Abstract要約: マルコフ決定過程(FMDP)における強化学習について検討した。
本稿では,FMDPの分解構造を利用したFMDP-BFアルゴリズムを提案する。
応用として,knapsack 制約付き RL (RLwK) と呼ばれる制約付き RL の新しい定式化について検討する。
- 参考スコア(独自算出の注目度): 25.119552984253882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) in episodic, factored Markov decision processes
(FMDPs) is studied. We propose an algorithm called FMDP-BF, which leverages the
factorization structure of FMDP. The regret of FMDP-BF is shown to be
exponentially smaller than that of optimal algorithms designed for non-factored
MDPs, and improves on the best previous result for FMDPs~\citep{osband2014near}
by a factored of $\sqrt{H|\mathcal{S}_i|}$, where $|\mathcal{S}_i|$ is the
cardinality of the factored state subspace and $H$ is the planning horizon. To
show the optimality of our bounds, we also provide a lower bound for FMDP,
which indicates that our algorithm is near-optimal w.r.t. timestep $T$, horizon
$H$ and factored state-action subspace cardinality. Finally, as an application,
we study a new formulation of constrained RL, known as RL with knapsack
constraints (RLwK), and provides the first sample-efficient algorithm based on
FMDP-BF.
- Abstract(参考訳): マルコフ決定過程(FMDP)における強化学習(RL)について検討した。
本稿では,FMDPの分解構造を利用したFMDP-BFアルゴリズムを提案する。
fmdp-bfの後悔は、非分解mdp向けに設計された最適アルゴリズムよりも指数関数的に小さいことが示され、fmdps~\citep{osband2014near} に対して、$\sqrt{h|\mathcal{s}_i|}$ の因子で、$|\mathcal{s}_i|$ は分解された状態部分空間の濃度であり、$h$ は計画地平線である。
境界の最適性を示すために、fmdp の下限も提供し、これは我々のアルゴリズムがほぼ最適の w.r.t. 時間ステップ $t$, horizon $h$, factored state-action subspace cardinality であることを示している。
最後に,knapsack 制約付き RL (RLwK) と呼ばれる制約付き RL の新たな定式化について検討し,FMDP-BF に基づく最初のサンプル効率アルゴリズムを提供する。
関連論文リスト
- Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Model-Based Reinforcement Learning with Multinomial Logistic Function Approximation [10.159501412046508]
マルコフ決定過程(MDP)におけるモデルベース強化学習(RL)について検討する。
我々は,多項ロジスティックモデルにより状態遷移が与えられるMPPに対して,証明可能な効率のよいRLアルゴリズムを確立する。
我々の知る限りでは、証明可能な保証付き多項ロジスティック関数近似を用いたモデルベースRLアルゴリズムとしてはこれが初めてである。
論文 参考訳(メタデータ) (2022-12-27T16:25:09Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs [24.256960622176305]
エピソードマルコフ決定過程におけるPAC RLのサンプル複雑性について, 上界と下界の整合性について検討した。
私たちの境界は、決定論的リターンギャップ(deterministic return gap)と呼ばれる状態-作用ペアに対して、新たな最適ギャップ(sub-optimality gap)を特徴とする。
彼らの設計と分析は、最小フローや最大カットといったグラフ理論の概念を含む新しいアイデアを採用している。
論文 参考訳(メタデータ) (2022-03-17T11:19:41Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Improved Exploration in Factored Average-Reward MDPs [23.096751699592133]
我々は、未知の因子マルコフ決定過程(FMDP)における平均回帰基準の下での後悔の最小化タスクを考える。
我々は、遷移関数の個々の要素に対して定義されたバーンスタイン型信頼集合に依存する、DBN-UCRLと呼ばれる人気のあるUCRL2戦略にインスパイアされた、新しい後悔の最小化戦略を導入する。
本稿では,DBN-UCRL は,一般的な因子分解構造において,$mathcal S_i$'s の大きさとそれに関連する直径関連項の依存性から,既存の後悔境界よりも厳格に改善された後悔境界を達成できることを示す。
論文 参考訳(メタデータ) (2020-09-09T21:15:01Z) - Towards Minimax Optimal Reinforcement Learning in Factored Markov
Decision Processes [53.72166325215299]
エピソード因子化マルコフ決定過程(FMDP)における最小強化学習について検討する。
第一に、分解された構造のリッチなクラスに対する最小限の後悔の保証を達成する。
2つ目は、少し悪い後悔をしながら、より良い計算複雑性を楽しみます。
論文 参考訳(メタデータ) (2020-06-24T00:50:17Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z) - Reinforcement Learning in Factored MDPs: Oracle-Efficient Algorithms and
Tighter Regret Bounds for the Non-Episodic Setting [24.90164851620799]
非等化因子マルコフ決定過程(FMDP)における強化学習の研究
FMDPに対する2つの近似およびオラクル効率アルゴリズムを提案する。
我々のオラクル効率のアルゴリズムは、コンピュータネットワーク管理シミュレーションにおいて、これまで提案されていた近似アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-02-06T15:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。