論文の概要: Model Selection in Reinforcement Learning with General Function
Approximations
- arxiv url: http://arxiv.org/abs/2207.02992v1
- Date: Wed, 6 Jul 2022 21:52:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 13:31:13.572190
- Title: Model Selection in Reinforcement Learning with General Function
Approximations
- Title(参考訳): 一般関数近似を用いた強化学習におけるモデル選択
- Authors: Avishek Ghosh and Sayak Ray Chowdhury
- Abstract要約: 強化学習環境におけるモデル選択の検討 - マルチアームバンド(MAB)とマルコフ決定プロセス(MDP)-
モデル選択フレームワークでは、$mathcalF$と$mathcalM$で表される関数クラスを知らない。
適応アルゴリズムの累積的後悔は、正しい関数クラスを知っているオラクルの後悔と一致することを示す。
- 参考スコア(独自算出の注目度): 10.97775622611135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider model selection for classic Reinforcement Learning (RL)
environments -- Multi Armed Bandits (MABs) and Markov Decision Processes (MDPs)
-- under general function approximations. In the model selection framework, we
do not know the function classes, denoted by $\mathcal{F}$ and $\mathcal{M}$,
where the true models -- reward generating function for MABs and and transition
kernel for MDPs -- lie, respectively. Instead, we are given $M$ nested function
(hypothesis) classes such that true models are contained in at-least one such
class. In this paper, we propose and analyze efficient model selection
algorithms for MABs and MDPs, that \emph{adapt} to the smallest function class
(among the nested $M$ classes) containing the true underlying model. Under a
separability assumption on the nested hypothesis classes, we show that the
cumulative regret of our adaptive algorithms match to that of an oracle which
knows the correct function classes (i.e., $\cF$ and $\cM$) a priori.
Furthermore, for both the settings, we show that the cost of model selection is
an additive term in the regret having weak (logarithmic) dependence on the
learning horizon $T$.
- Abstract(参考訳): 古典的強化学習(rl)環境におけるモデル選択 - 多武装バンディット(mabs)とマルコフ決定過程(mdps) -- を一般関数近似のもとで検討する。
モデル選択フレームワークでは、$\mathcal{F}$と$\mathcal{M}$で表される関数クラスを知らない。
その代わり、真のモデルがそのようなクラスに含まれるように、$m$ nested function (hypothesis) クラスが与えられる。
本稿では,MAB と MDP の効率的なモデル選択アルゴリズムを提案し,真に基礎となるモデルを含む最小の関数クラス (ネストされた$M$クラス) に対して \emph{adapt} を提案する。
ネストされた仮説クラス上の分離性仮定の下で、我々の適応アルゴリズムの累積後悔は正しい関数クラス(例えば$\cF$と$\cM$)を知っているオラクルのものと一致することを示す。
さらに, いずれの設定においても, モデル選択のコストは, 学習ホライズンに弱い(対数的)依存を持つ後悔の補足語であることを示す。
関連論文リスト
- A Complete Characterization of Learnability for Stochastic Noisy Bandits [19.35221816408955]
未知の報酬関数 $f*$ を既知の関数クラス $mathcalF$ で検討する。
任意の雑音を持つモデルクラスに対して、学習可能性の完全な評価を与える。
また、最適なクエリ複雑性を達成するためには適応性が必要であることも証明します。
論文 参考訳(メタデータ) (2024-10-12T17:23:34Z) - Agnostically Learning Multi-index Models with Queries [54.290489524576756]
本稿では,ガウス分布下での非依存学習の課題に対するクエリアクセスのパワーについて検討する。
クエリアクセスは、MIMを不可知的に学習するためのランダムな例よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2023-12-27T15:50:47Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Near-Optimal Reward-Free Exploration for Linear Mixture MDPs with
Plug-in Solver [32.212146650873194]
報酬信号のガイダンスを使わずにRLモデルを効率的に学習するためのアプローチを提案する。
特に、私たちは、探索フェーズにおけるモデル学習に集中するプラグインソルバアプローチを採用しています。
新たな探索アルゴリズムを確立することで,プラグインアプローチは環境との相互作用を$tildeO(d2H3/epsilon2)$とすることでモデルを学習することを示す。
論文 参考訳(メタデータ) (2021-10-07T07:59:50Z) - Model Selection with Near Optimal Rates for Reinforcement Learning with
General Model Classes [27.361399036211694]
有限地平線エピソディック強化学習(RL)問題に対するモデル選択の問題に対処する。
モデル選択フレームワークでは、$mathcalP*$の代わりに、遷移カーネルのネストされたファミリーが$M$を与えられる。
textttARL-GENが$TildemathcalO(d_mathcalE* H2+sqrtd_mathcalE* mathbbM* H2T)$の後悔を得ることを示す。
論文 参考訳(メタデータ) (2021-07-13T05:00:38Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z) - A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs
with Near-optimal Regret [44.374427255708135]
無限水平平均逆マルコフ決定過程(MDP)のモデルフリーアルゴリズムである探索強化Q-ラーニング(EE-QL)を提案する。
EE-QLは、最適平均報酬のオンライン集中近似が利用可能であると仮定する。
これは、エルゴード的な仮定なしに$O(sqrt T)$後悔を達成する最初のモデル自由学習アルゴリズムであり、対数的因子を除いて、下位境界の$T$と一致する。
論文 参考訳(メタデータ) (2020-06-08T05:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。