論文の概要: Improved Exploration in Factored Average-Reward MDPs
- arxiv url: http://arxiv.org/abs/2009.04575v3
- Date: Thu, 11 Mar 2021 13:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 08:56:01.495697
- Title: Improved Exploration in Factored Average-Reward MDPs
- Title(参考訳): 係数平均回帰MDPの探索改善
- Authors: Mohammad Sadegh Talebi, Anders Jonsson, Odalric-Ambrym Maillard
- Abstract要約: 我々は、未知の因子マルコフ決定過程(FMDP)における平均回帰基準の下での後悔の最小化タスクを考える。
我々は、遷移関数の個々の要素に対して定義されたバーンスタイン型信頼集合に依存する、DBN-UCRLと呼ばれる人気のあるUCRL2戦略にインスパイアされた、新しい後悔の最小化戦略を導入する。
本稿では,DBN-UCRL は,一般的な因子分解構造において,$mathcal S_i$'s の大きさとそれに関連する直径関連項の依存性から,既存の後悔境界よりも厳格に改善された後悔境界を達成できることを示す。
- 参考スコア(独自算出の注目度): 23.096751699592133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a regret minimization task under the average-reward criterion in
an unknown Factored Markov Decision Process (FMDP). More specifically, we
consider an FMDP where the state-action space $\mathcal X$ and the state-space
$\mathcal S$ admit the respective factored forms of $\mathcal X =
\otimes_{i=1}^n \mathcal X_i$ and $\mathcal S=\otimes_{i=1}^m \mathcal S_i$,
and the transition and reward functions are factored over $\mathcal X$ and
$\mathcal S$. Assuming known factorization structure, we introduce a novel
regret minimization strategy inspired by the popular UCRL2 strategy, called
DBN-UCRL, which relies on Bernstein-type confidence sets defined for individual
elements of the transition function. We show that for a generic factorization
structure, DBN-UCRL achieves a regret bound, whose leading term strictly
improves over existing regret bounds in terms of the dependencies on the size
of $\mathcal S_i$'s and the involved diameter-related terms. We further show
that when the factorization structure corresponds to the Cartesian product of
some base MDPs, the regret of DBN-UCRL is upper bounded by the sum of regret of
the base MDPs. We demonstrate, through numerical experiments on standard
environments, that DBN-UCRL enjoys substantially improved regret empirically
over existing algorithms that have frequentist regret guarantees.
- Abstract(参考訳): 我々は、未知因子マルコフ決定過程(fmdp)における平均回帰基準の下での後悔の最小化タスクを考える。
より具体的には、状態作用空間 $\mathcal x$ と状態空間 $\mathcal s$ がそれぞれ $\mathcal x = \otimes_{i=1}^n \mathcal x_i$ と $\mathcal s=\otimes_{i=1}^m \mathcal s_i$ の分解形式を認め、遷移関数と報酬関数は$\mathcal x$ と $\mathcal s$ で分解されるfmdpを考える。
既知の因子化構造を仮定すると、遷移関数の個々の要素に対して定義されたベルンシュタイン型信頼集合に依存する、DBN-UCRLと呼ばれる人気のあるUCRL2戦略にインスパイアされた新しい後悔の最小化戦略を導入する。
本稿では,DBN-UCRL は一般の因子分解構造において,既存の残差境界よりも厳密に改善された残差境界を達成し,その先行項が$\mathcal S_i$'s の大きさと関連する径関係項に依存することを示す。
さらに,因子化構造が基底MDPのカルト積に対応する場合,DBN-UCRLの後悔は基底MDPの後悔の和によって上界となることを示す。
本研究は,DBN-UCRLが既成の既成アルゴリズムに対して,頻繁な後悔の保証を有することを実証した。
関連論文リスト
- The Limits of Transfer Reinforcement Learning with Latent Low-rank Structure [9.631640936820126]
多くの強化学習アルゴリズムは、問題の状態と行動空間のA$であるSが大きすぎるため、実際に使用するには高すぎる。
我々は、ソースとターゲットのMDPが遷移カーネルを持つ場合、遅延低ランク表現を転送する問題を考察する。
提案アルゴリズムは,各ソースMDPの潜在表現を学習し,その線形構造を利用して,ターゲットMDPの後悔境界における$S,A$,あるいは$SA$への依存を除去する。
論文 参考訳(メタデータ) (2024-10-28T23:12:08Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Learning Adversarial Low-rank Markov Decision Processes with Unknown
Transition and Full-information Feedback [30.23951525723659]
本研究は,全情報フィードバック設定において,逆向きに損失が変化する低ランクMDPについて検討する。
政策最適化に基づくアルゴリズムPOLOを提案し、$widetildeO(Kfrac56Afrac12dln (1+M)/ (1-gamma)2)$ regret guarantee。
論文 参考訳(メタデータ) (2023-11-14T03:12:43Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Causal Markov Decision Processes: Learning Good Interventions
Efficiently [24.58691421788476]
連続的な意思決定のための新しい形式主義である因果マルコフ決定プロセス(C-MDPs)を紹介します。
デジタルヘルスケアやデジタルマーケティングなどの現代および新興のアプリケーション分野は、C-MDPによるモデリングの恩恵を受けることができます。
論文 参考訳(メタデータ) (2021-02-15T16:48:54Z) - Value Function Approximations via Kernel Embeddings for No-Regret
Reinforcement Learning [10.828727066443909]
我々は,CME-RLというオンラインモデルに基づくRLアルゴリズムを提案し,Hilbert空間への埋め込みとして遷移分布の表現を学習する。
絶対定数と多対数係数のみを隠蔽する次数$tildeObig(Hgamma_NsqrtNbig)$footnote $tildeO(cdot)$の頻繁な(Worst-case)後悔境界を証明してアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2020-11-16T11:40:55Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Efficient Reinforcement Learning in Factored MDPs with Application to
Constrained RL [25.119552984253882]
マルコフ決定過程(FMDP)における強化学習について検討した。
本稿では,FMDPの分解構造を利用したFMDP-BFアルゴリズムを提案する。
応用として,knapsack 制約付き RL (RLwK) と呼ばれる制約付き RL の新しい定式化について検討する。
論文 参考訳(メタデータ) (2020-08-31T02:20:41Z) - Towards Minimax Optimal Reinforcement Learning in Factored Markov
Decision Processes [53.72166325215299]
エピソード因子化マルコフ決定過程(FMDP)における最小強化学習について検討する。
第一に、分解された構造のリッチなクラスに対する最小限の後悔の保証を達成する。
2つ目は、少し悪い後悔をしながら、より良い計算複雑性を楽しみます。
論文 参考訳(メタデータ) (2020-06-24T00:50:17Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。