論文の概要: Model-Based Reinforcement Learning with Value-Targeted Regression
- arxiv url: http://arxiv.org/abs/2006.01107v1
- Date: Mon, 1 Jun 2020 17:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 06:23:00.927227
- Title: Model-Based Reinforcement Learning with Value-Targeted Regression
- Title(参考訳): 価値目標回帰を用いたモデルベース強化学習
- Authors: Alex Ayoub, Zeyu Jia, Csaba Szepesvari, Mengdi Wang and Lin F. Yang
- Abstract要約: 我々は、遷移モデル $P$ が既知のモデルの族 $mathcalP$ に属する有限水平エピソード RL に焦点を当てる。
線形混合の特別な場合において、後悔束は $tildemathcalO(dsqrtH3T)$ という形を取る。
- 参考スコア(独自算出の注目度): 48.92439657407732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies model-based reinforcement learning (RL) for regret
minimization. We focus on finite-horizon episodic RL where the transition model
$P$ belongs to a known family of models $\mathcal{P}$, a special case of which
is when models in $\mathcal{P}$ take the form of linear mixtures: $P_{\theta} =
\sum_{i=1}^{d} \theta_{i}P_{i}$. We propose a model based RL algorithm that is
based on optimism principle: In each episode, the set of models that are
`consistent' with the data collected is constructed. The criterion of
consistency is based on the total squared error of that the model incurs on the
task of predicting \emph{values} as determined by the last value estimate along
the transitions. The next value function is then chosen by solving the
optimistic planning problem with the constructed set of models. We derive a
bound on the regret, which, in the special case of linear mixtures, the regret
bound takes the form $\tilde{\mathcal{O}}(d\sqrt{H^{3}T})$, where $H$, $T$ and
$d$ are the horizon, total number of steps and dimension of $\theta$,
respectively. In particular, this regret bound is independent of the total
number of states or actions, and is close to a lower bound
$\Omega(\sqrt{HdT})$. For a general model family $\mathcal{P}$, the regret
bound is derived using the notion of the so-called Eluder dimension proposed by
Russo & Van Roy (2014).
- Abstract(参考訳): 本稿では,後悔最小化のためのモデルベース強化学習(RL)について検討する。
ここでは、遷移モデル $P$ が既知のモデルの族 $\mathcal{P}$ に属する有限水平エピソード RL に焦点を当て、その特別な場合として、$\mathcal{P}$ のモデルが線型混合の形式を取る。
本稿では, 最適化原理に基づくモデルベースRLアルゴリズムを提案する。 各エピソードにおいて, 収集したデータと '一貫性' なモデルの集合を構築する。
一貫性の基準は、モデルが遷移に沿って見積もる最後の値によって決定される \emph{values} を予測するタスクに負う全二乗誤差に基づいている。
次に、構築したモデルセットで楽観的な計画問題を解くことで次の値関数を選択する。
線形混合の特別な場合において、後悔境界は $\tilde{\mathcal{O}}(d\sqrt{H^{3}T})$ となり、ここでは$H$, $T$, $d$ はそれぞれ水平線、ステップの総数、次元が $\theta$ となる。
特に、この後悔境界は状態や行動の総数とは独立であり、下限の$\Omega(\sqrt{HdT})$に近い。
一般模型群 $\mathcal{P}$ に対して、後悔境界はRussso & Van Roy (2014) によって提唱されたいわゆるエルダー次元の概念を用いて導出される。
関連論文リスト
- Conditional regression for the Nonlinear Single-Variable Model [4.565636963872865]
F(X):=f(Pi_gamma):mathbbRdto[0,rmlen_gamma]$ ここで$Pi_gamma: [0,rmlen_gamma]tomathbbRd$と$f:[0,rmlen_gamma]tomathbbR1$を考える。
条件回帰に基づく非パラメトリック推定器を提案し、$one$-dimensionalOptimical min-maxレートを実現できることを示す。
論文 参考訳(メタデータ) (2024-11-14T18:53:51Z) - Improved Bound for Robust Causal Bandits with Linear Models [16.60875994745622]
本稿では,時間的モデル変動に直面した因果包帯のロバスト性について検討する。
提案アルゴリズムは,$C$が$o(sqrtT)$の場合に,ほぼ最適な$tildemathcalO(sqrtT)$後悔を達成する。
論文 参考訳(メタデータ) (2024-05-13T14:41:28Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Robust Causal Bandits for Linear Models [20.028245872662843]
因果系における報酬関数を最適化するための実験の逐次設計は、因果包帯における介入の逐次設計(CB)により効果的にモデル化できる。
本稿では,このようなモデルゆらぎに対するCBの頑健性について述べる。
累積後悔は設計基準として採用され、その目的は、因果モデル全体とその変動を意識したオラクルに対して最小の累積後悔を引き起こす一連の介入を設計することである。
論文 参考訳(メタデータ) (2023-10-30T17:58:01Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Model Selection with Near Optimal Rates for Reinforcement Learning with
General Model Classes [27.361399036211694]
有限地平線エピソディック強化学習(RL)問題に対するモデル選択の問題に対処する。
モデル選択フレームワークでは、$mathcalP*$の代わりに、遷移カーネルのネストされたファミリーが$M$を与えられる。
textttARL-GENが$TildemathcalO(d_mathcalE* H2+sqrtd_mathcalE* mathbbM* H2T)$の後悔を得ることを示す。
論文 参考訳(メタデータ) (2021-07-13T05:00:38Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。