論文の概要: Linear Reinforcement Learning with Ball Structure Action Space
- arxiv url: http://arxiv.org/abs/2211.07419v1
- Date: Mon, 14 Nov 2022 14:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 19:17:32.347730
- Title: Linear Reinforcement Learning with Ball Structure Action Space
- Title(参考訳): ボール構造動作空間を用いた線形強化学習
- Authors: Zeyu Jia, Randy Jia, Dhruv Madeka, Dean P. Foster
- Abstract要約: 本稿では,サンプル効率のよいRLアルゴリズム (BallRL) を提案し,$tildeOleft(fracH5d3epsilon3right)$のトラジェクトリ数を用いて,$epsilon$-optimal Policyを学習する。
特に,$tildeOleft(fracH5d3epsilon3right)$のトラジェクトリ数だけを用いて,$epsilon$-optimal Policyを学習するサンプル効率のよいRLアルゴリズム(BallRL)を提案する。
- 参考スコア(独自算出の注目度): 8.697177927706521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of Reinforcement Learning (RL) with linear function
approximation, i.e. assuming the optimal action-value function is linear in a
known $d$-dimensional feature mapping. Unfortunately, however, based on only
this assumption, the worst case sample complexity has been shown to be
exponential, even under a generative model. Instead of making further
assumptions on the MDP or value functions, we assume that our action space is
such that there always exist playable actions to explore any direction of the
feature space. We formalize this assumption as a ``ball structure'' action
space, and show that being able to freely explore the feature space allows for
efficient RL. In particular, we propose a sample-efficient RL algorithm
(BallRL) that learns an $\epsilon$-optimal policy using only
$\tilde{O}\left(\frac{H^5d^3}{\epsilon^3}\right)$ number of trajectories.
- Abstract(参考訳): 本稿では,線形関数近似を用いた強化学習(RL)の問題,すなわち,最適作用値関数が既知の$d$次元特徴写像において線形であることを仮定する。
しかし、残念ながら、この仮定に基づいて、最悪のサンプルの複雑さは、生成モデルの下でも指数関数的であることが示されている。
MDP や値関数についてさらに仮定する代わりに、我々のアクション空間は、常に特徴空間の任意の方向を探索するための再生可能なアクションが存在すると仮定する。
この仮定を「ボール構造」の作用空間として定式化し、特徴空間を自由に探索できることは効率的なRLを可能にすることを示す。
特に,$\tilde{O}\left(\frac{H^5d^3}{\epsilon^3}\right)$のトラジェクトリ数だけを用いて,$\epsilon$-optimal Policyを学習するサンプル効率のよいRLアルゴリズム(BallRL)を提案する。
関連論文リスト
- Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - VO$Q$L: Towards Optimal Regret in Model-free RL with Nonlinear Function
Approximation [43.193807443491814]
一般関数近似とスパース報酬による時間的不均一なエピソード強化学習(RL)について検討した。
我々は,Q$-learningをベースとした新しいアルゴリズム,Variance-weighted Optimistic $Q$-Learning (VO$Q$L) を設計し,その後悔次元を完全性に限定し,回帰関数クラスに対する有界エルダーを設計する。
論文 参考訳(メタデータ) (2022-12-12T17:37:00Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov
Decision Processes [61.11090361892306]
Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような環境を考える。
この分離は線形MDPの設定には存在しないことを示す。
我々は$d$次元線形 MDP における報酬のない RL に対する計算効率の良いアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-01-26T22:09:59Z) - Near-optimal Representation Learning for Linear Bandits and Linear RL [41.33483293243257]
私たちはまず、次元が$d$の線形バンディットを同時に$M$で演奏する設定を考えます。
これらの包帯は、$k$-次元線型表現を共有するので、$kll d$ と $k ll M$ が成り立つ。
我々は、共有表現を利用して$tildeO(MsqrtdkT + dsqrtkMT )を後悔するサンプル効率のアルゴリズムMTLR-OFULを提案する。
論文 参考訳(メタデータ) (2021-02-08T11:11:53Z) - Model-based Reinforcement Learning for Continuous Control with Posterior
Sampling [10.91557009257615]
連続状態空間における強化学習(PSRL)のためのモデルベース後方サンプリングについて検討した。
MPC-PSRLはモデルに基づく後部サンプリングアルゴリズムであり,行動選択のためのモデル予測制御を行う。
論文 参考訳(メタデータ) (2020-11-20T21:00:31Z) - Value Function Approximations via Kernel Embeddings for No-Regret
Reinforcement Learning [10.828727066443909]
我々は,CME-RLというオンラインモデルに基づくRLアルゴリズムを提案し,Hilbert空間への埋め込みとして遷移分布の表現を学習する。
絶対定数と多対数係数のみを隠蔽する次数$tildeObig(Hgamma_NsqrtNbig)$footnote $tildeO(cdot)$の頻繁な(Worst-case)後悔境界を証明してアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2020-11-16T11:40:55Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。