論文の概要: Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary
Environments
- arxiv url: http://arxiv.org/abs/2205.13044v1
- Date: Wed, 25 May 2022 20:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:27:27.350174
- Title: Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary
Environments
- Title(参考訳): 非定常環境における最適ゴール指向強化学習
- Authors: Liyu Chen and Haipeng Luo
- Abstract要約: 目標指向強化学習における動的後悔の研究を行う。
この下位境界における$Delta_c$と$Delta_P$の異なる役割は、コストと遷移を別々に見積もるアルゴリズムを設計するきっかけとなった。
- 参考スコア(独自算出の注目度): 40.027926921772355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We initiate the study of dynamic regret minimization for goal-oriented
reinforcement learning modeled by a non-stationary stochastic shortest path
problem with changing cost and transition functions. We start by establishing a
lower bound $\Omega((B_{\star} SAT_{\star}(\Delta_c +
B_{\star}^2\Delta_P))^{1/3}K^{2/3})$, where $B_{\star}$ is the maximum expected
cost of the optimal policy of any episode starting from any state, $T_{\star}$
is the maximum hitting time of the optimal policy of any episode starting from
the initial state, $SA$ is the number of state-action pairs, $\Delta_c$ and
$\Delta_P$ are the amount of changes of the cost and transition functions
respectively, and $K$ is the number of episodes. The different roles of
$\Delta_c$ and $\Delta_P$ in this lower bound inspire us to design algorithms
that estimate costs and transitions separately. Specifically, assuming the
knowledge of $\Delta_c$ and $\Delta_P$, we develop a simple but sub-optimal
algorithm and another more involved minimax optimal algorithm (up to
logarithmic terms). These algorithms combine the ideas of finite-horizon
approximation [Chen et al., 2022a], special Bernstein-style bonuses of the MVP
algorithm [Zhang et al., 2020], adaptive confidence widening [Wei and Luo,
2021], as well as some new techniques such as properly penalizing long-horizon
policies. Finally, when $\Delta_c$ and $\Delta_P$ are unknown, we develop a
variant of the MASTER algorithm [Wei and Luo, 2021] and integrate the
aforementioned ideas into it to achieve $\widetilde{O}(\min\{B_{\star}
S\sqrt{ALK},
(B_{\star}^2S^2AT_{\star}(\Delta_c+B_{\star}\Delta_P))^{1/3}K^{2/3}\})$ regret,
where $L$ is the unknown number of changes of the environment.
- Abstract(参考訳): コストと遷移関数を変化させた非定常確率的最短経路問題による目標指向強化学習のための動的後悔最小化の研究を開始する。
We start by establishing a lower bound $\Omega((B_{\star} SAT_{\star}(\Delta_c + B_{\star}^2\Delta_P))^{1/3}K^{2/3})$, where $B_{\star}$ is the maximum expected cost of the optimal policy of any episode starting from any state, $T_{\star}$ is the maximum hitting time of the optimal policy of any episode starting from the initial state, $SA$ is the number of state-action pairs, $\Delta_c$ and $\Delta_P$ are the amount of changes of the cost and transition functions respectively, and $K$ is the number of episodes.
この低い境界における$\Delta_c$と$\Delta_P$の異なる役割は、コストと遷移を別々に見積もるアルゴリズムを設計するきっかけとなった。
具体的には、$\Delta_c$ と $\Delta_P$ の知識を仮定して、単純だが準最適アルゴリズムと、より複雑な極小最適化アルゴリズム(対数項まで)を開発する。
これらのアルゴリズムは、有限ホリゾン近似 [chen et al., 2022a]、mvpアルゴリズム [zhang et al., 2020]、適応信頼拡大 [wei and luo, 2021] の特別ベルンシュタイン型ボーナスのアイデアと、長ホリゾンポリシーの適切なペナルティなどの新しい手法を組み合わせたものである。
最後に、$\Delta_c$ と $\Delta_P$ が未知の場合には、MASTERアルゴリズムの変種 (Wei and Luo, 2021) を開発し、上記のアイデアを組み込んで、$\widetilde{O}(\min\{B_{\star} S\sqrt{ALK}, (B_{\star}^2S^2AT_{\star}(\Delta_c+B_{\star}\Delta_P))^{1/3}K^{2/3}\}) を得る。
関連論文リスト
- Regret-Optimal Federated Transfer Learning for Kernel Regression with Applications in American Option Pricing [8.723136784230906]
本稿では、中央プランナーがデータセットにアクセス可能なフェデレーショントランスファー学習のための最適反復スキームを提案する。
我々の目標は、生成されたパラメータの累積偏差を$thetai(t)_t=0T$で最小化することである。
後悔と最適化のアルゴリズム内で対称性を活用することで, $mathcalO(Np2)$少なめの初等演算を伴って動作する,ほぼ後悔のいく$_optimalを開発する。
論文 参考訳(メタデータ) (2023-09-08T19:17:03Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Improved No-Regret Algorithms for Stochastic Shortest Path with Linear
MDP [31.62899359543925]
線形MDPを用いた最短経路問題(SSP)に対する2つの新しい非回帰アルゴリズムを提案する。
我々の最初のアルゴリズムは計算効率が高く、後悔すべき$widetildeOleft(sqrtd3B_star2T_star Kright)$を達成している。
第2のアルゴリズムは計算的に非効率であるが、$T_starに依存しない$widetildeO(d3.5B_starsqrtK)$の最初の「水平な」後悔を実現する。
論文 参考訳(メタデータ) (2021-12-18T06:47:31Z) - Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。
この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。
本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文 参考訳(メタデータ) (2021-03-24T10:11:49Z) - Finding the Stochastic Shortest Path with Low Regret: The Adversarial
Cost and Unknown Transition Case [29.99619764839178]
敵の費用と未知の遷移を伴う最短経路問題に対して,大きな進展をみせている。
具体的には、全情報設定を後悔する$widetildeO(sqrtS3A2DT_star K)を実現するアルゴリズムを開発する。
私たちはまた、最も難しい組み合わせとして、敵のコストによる盗聴フィードバックと未知の移行を最初に検討しています。
論文 参考訳(メタデータ) (2021-02-10T06:33:04Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Near-optimal Regret Bounds for Stochastic Shortest Path [63.029132134792555]
最短経路 (SSP) は計画と制御においてよく知られた問題であり、エージェントは最小の総コストで目標状態に到達する必要がある。
任意の学習アルゴリズムは、最悪の場合、少なくとも$Omega(B_star sqrt|S| |A|K)$後悔しなければならない。
論文 参考訳(メタデータ) (2020-02-23T09:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。