論文の概要: Reinforcement Learning in Reward-Mixing MDPs
- arxiv url: http://arxiv.org/abs/2110.03743v1
- Date: Thu, 7 Oct 2021 18:55:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 14:42:28.589474
- Title: Reinforcement Learning in Reward-Mixing MDPs
- Title(参考訳): 逆ミキシングMDPにおける強化学習
- Authors: Jeongyeol Kwon, Yonathan Efroni, Constantine Caramanis, Shie Mannor
- Abstract要約: 報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
- 参考スコア(独自算出の注目度): 74.41782017817808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a near optimal policy in a partially observable system remains an
elusive challenge in contemporary reinforcement learning. In this work, we
consider episodic reinforcement learning in a reward-mixing Markov decision
process (MDP). There, a reward function is drawn from one of multiple possible
reward models at the beginning of every episode, but the identity of the chosen
reward model is not revealed to the agent. Hence, the latent state space, for
which the dynamics are Markovian, is not given to the agent. We study the
problem of learning a near optimal policy for two reward-mixing MDPs. Unlike
existing approaches that rely on strong assumptions on the dynamics, we make no
assumptions and study the problem in full generality. Indeed, with no further
assumptions, even for two switching reward-models, the problem requires several
new ideas beyond existing algorithmic and analysis techniques for efficient
exploration. We provide the first polynomial-time algorithm that finds an
$\epsilon$-optimal policy after exploring $\tilde{O}(poly(H,\epsilon^{-1})
\cdot S^2 A^2)$ episodes, where $H$ is time-horizon and $S, A$ are the number
of states and actions respectively. This is the first efficient algorithm that
does not require any assumptions in partially observed environments where the
observation space is smaller than the latent state space.
- Abstract(参考訳): 部分的観測可能なシステムでほぼ最適の方針を学ぶことは、現代強化学習において難解な課題である。
本研究では,報酬混合マルコフ決定過程(mdp)において,エピソディクス強化学習を検討する。
そこで、各エピソードの冒頭で複数の報酬モデルから報酬機能を引き出すが、選択された報酬モデルの同一性はエージェントに明かされない。
したがって、動力学がマルコフ的である潜在状態空間はエージェントには与えられない。
本研究では,2つの報酬混合型MDPの最適条件を学習する問題について検討する。
動的に強い仮定に依存する既存のアプローチとは異なり、我々は仮定をせず、問題を完全な一般性で研究する。
実際、さらなる仮定なしに、2つの切り替え報酬モデルでさえ、効率的な探索のために既存のアルゴリズムや分析技術を超えるいくつかの新しいアイデアが必要となる。
我々は、$\tilde{O}(poly(H,\epsilon^{-1}) \cdot S^2 A^2)$ episodesを探索した後、$\epsilon$-Optimal Policyを求める最初の多項式時間アルゴリズムを提供する。
これは、観測空間が潜在状態空間より小さい部分的観測環境において仮定を必要としない最初の効率的なアルゴリズムである。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Stochastic Principal-Agent Problems: Efficient Computation and Learning [25.637633553882985]
プリンシパルとエージェントは環境の中で相互作用し、それぞれが互いに利用できない状態に関する観察を行う。
このモデルは、特殊ケースワイドフォームゲーム(EFG)を包含し、マルコフ決定プロセス(POMDP)のゲームにアプローチする。
遷移確率が未知のエピソード強化学習環境において,効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-06T16:20:44Z) - Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning [17.239062061431646]
本稿では,強化学習(RL)における報酬非依存探索について検討する。
S$状態、$A$作用、および水平長$H$を持つ有限水平不均一決定過程を考える。
我々のアルゴリズムは任意の数の報酬関数に対して$varepsilon$精度を得ることができる。
論文 参考訳(メタデータ) (2023-04-14T17:46:49Z) - Improved Sample Complexity for Reward-free Reinforcement Learning under
Low-rank MDPs [43.53286390357673]
本稿では,低ランクMDPモデルによる報酬なし強化学習に焦点を当てた。
我々はまず、低ランクのMDPの下での任意のアルゴリズムに対して、最初の既知のサンプル複雑性の低い境界を提供する。
次に、RAFFLEと呼ばれる新しいモデルベースアルゴリズムを提案し、$epsilon$-optimal Policyを見つけ、$epsilon$-accurate system IDを実現できることを示す。
論文 参考訳(メタデータ) (2023-03-20T04:39:39Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。