論文の概要: Zooming for Efficient Model-Free Reinforcement Learning in Metric Spaces
- arxiv url: http://arxiv.org/abs/2003.04069v1
- Date: Mon, 9 Mar 2020 12:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:08:02.277251
- Title: Zooming for Efficient Model-Free Reinforcement Learning in Metric Spaces
- Title(参考訳): 距離空間における効率的なモデルフリー強化学習のためのズーム
- Authors: Ahmed Touati, Adrien Ali Taiga, Marc G. Bellemare
- Abstract要約: 本研究では,自然距離を持つと仮定される連続的な状態-作用空間を用いたエピソディック強化学習について考察する。
本稿では,連続的な帯域幅からアイデアを生かし,共同空間の適応的離散化を学習するオンラインアルゴリズムZoomRLを提案する。
ZoomRL が最悪の後悔点である $tildeO(Hfrac52 Kfracd+1d+2)$ ここでは$H$ が計画的地平線、$K$ がエピソード数、$d$ が空間の被覆次元であることを示す。
- 参考スコア(独自算出の注目度): 26.297887542066505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the wealth of research into provably efficient reinforcement learning
algorithms, most works focus on tabular representation and thus struggle to
handle exponentially or infinitely large state-action spaces. In this paper, we
consider episodic reinforcement learning with a continuous state-action space
which is assumed to be equipped with a natural metric that characterizes the
proximity between different states and actions. We propose ZoomRL, an online
algorithm that leverages ideas from continuous bandits to learn an adaptive
discretization of the joint space by zooming in more promising and frequently
visited regions while carefully balancing the exploitation-exploration
trade-off. We show that ZoomRL achieves a worst-case regret
$\tilde{O}(H^{\frac{5}{2}} K^{\frac{d+1}{d+2}})$ where $H$ is the planning
horizon, $K$ is the number of episodes and $d$ is the covering dimension of the
space with respect to the metric. Moreover, our algorithm enjoys improved
metric-dependent guarantees that reflect the geometry of the underlying space.
Finally, we show that our algorithm is robust to small misspecification errors.
- Abstract(参考訳): 効率的な強化学習アルゴリズムに関する豊富な研究にもかかわらず、ほとんどの作品は表表現に焦点を当てており、指数関数的あるいは無限大の状態作用空間を扱うのに苦労している。
本稿では,異なる状態と行動間の近接を特徴付ける自然な距離を持つと考えられる連続的な状態-作用空間を持つエピソード強化学習について考察する。
本研究では,連続的バンディットからアイデアを活用し,より有望で頻繁に訪れる領域をズームすることで協調空間の適応的離散化を学習するオンラインアルゴリズムであるzoomrlを提案する。
ZoomRL が最悪のケースである $\tilde{O}(H^{\frac{5}{2}} K^{\frac{d+1}{d+2}})$ ここで $H$ は計画的地平線であり、$K$ はエピソード数であり、$d$ は計量に関して空間の被覆次元であることを示す。
さらに,本アルゴリズムは,基礎空間の形状を反映するメトリック依存保証の改善を享受する。
最後に,本アルゴリズムは小さな誤特定誤差に対して頑健であることを示す。
関連論文リスト
- Provably Adaptive Average Reward Reinforcement Learning for Metric Spaces [2.2984209387877628]
本研究では、状態-作用空間を適応的に離散化し、状態-作用空間の有望な領域に拡大するアルゴリズムZoRLを開発する。
ZoRLは実験において、他の最先端アルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2024-10-25T18:14:42Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Scalable Primal-Dual Actor-Critic Method for Safe Multi-Agent RL with
General Utilities [12.104551746465932]
安全マルチエージェント強化学習について検討し、エージェントはそれぞれの安全制約を満たしつつ、局所的な目的の総和をまとめて最大化しようとする。
我々のアルゴリズムは、$mathcalOleft(T-2/3right)$のレートで1次定常点(FOSP)に収束する。
サンプルベースの設定では、高い確率で、我々のアルゴリズムは、$epsilon$-FOSPを達成するために$widetildemathcalOleft(epsilon-3.5right)$サンプルが必要です。
論文 参考訳(メタデータ) (2023-05-27T20:08:35Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - Exact Reduction of Huge Action Spaces in General Reinforcement Learning [28.19950790106291]
非MDPケースにおけるアクションバイナライゼーションがエクストリーム状態アグリゲーション(ESA)境界を有意に改善する方法を示す。
我々は,この二元化esaの状態数の上限を,元の動作空間サイズで対数的であり,二重指数的改善を与える。
論文 参考訳(メタデータ) (2020-12-18T12:45:03Z) - Value Function Approximations via Kernel Embeddings for No-Regret
Reinforcement Learning [10.828727066443909]
我々は,CME-RLというオンラインモデルに基づくRLアルゴリズムを提案し,Hilbert空間への埋め込みとして遷移分布の表現を学習する。
絶対定数と多対数係数のみを隠蔽する次数$tildeObig(Hgamma_NsqrtNbig)$footnote $tildeO(cdot)$の頻繁な(Worst-case)後悔境界を証明してアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2020-11-16T11:40:55Z) - Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。
特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。
提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文 参考訳(メタデータ) (2020-11-02T14:59:39Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z) - Kernel-Based Reinforcement Learning: A Finite-Time Analysis [53.47210316424326]
モデルに基づく楽観的アルゴリズムであるKernel-UCBVIを導入する。
スパース報酬を伴う連続MDPにおける我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2020-04-12T12:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。