論文の概要: Online Model Selection for Reinforcement Learning with Function
Approximation
- arxiv url: http://arxiv.org/abs/2011.09750v1
- Date: Thu, 19 Nov 2020 10:00:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:34:25.884217
- Title: Online Model Selection for Reinforcement Learning with Function
Approximation
- Title(参考訳): 関数近似を用いた強化学習のためのオンラインモデル選択
- Authors: Jonathan N. Lee, Aldo Pacchiano, Vidya Muthukumar, Weihao Kong, Emma
Brunskill
- Abstract要約: 我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
- 参考スコア(独自算出の注目度): 50.008542459050155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has achieved impressive successes yet often
requires a very large amount of interaction data. This result is perhaps
unsurprising, as using complicated function approximation often requires more
data to fit, and early theoretical results on linear Markov decision processes
provide regret bounds that scale with the dimension of the linear
approximation. Ideally, we would like to automatically identify the minimal
dimension of the approximation that is sufficient to encode an optimal policy.
Towards this end, we consider the problem of model selection in RL with
function approximation, given a set of candidate RL algorithms with known
regret guarantees. The learner's goal is to adapt to the complexity of the
optimal algorithm without knowing it \textit{a priori}. We present a
meta-algorithm that successively rejects increasingly complex models using a
simple statistical test. Given at least one candidate that satisfies
realizability, we prove the meta-algorithm adapts to the optimal complexity
with $\tilde{O}(L^{5/6} T^{2/3})$ regret compared to the optimal candidate's
$\tilde{O}(\sqrt T)$ regret, where $T$ is the number of episodes and $L$ is the
number of algorithms. The dimension and horizon dependencies remain optimal
with respect to the best candidate, and our meta-algorithmic approach is
flexible to incorporate multiple candidate algorithms and models. Finally, we
show that the meta-algorithm automatically admits significantly improved
instance-dependent regret bounds that depend on the gaps between the maximal
values attainable by the candidates.
- Abstract(参考訳): 深層強化学習は目覚ましい成功を収めていますが、多くの場合、大量のインタラクションデータが必要です。
この結果はおそらく予想外であり、複雑な関数近似を使うにはより多くのデータが必要であり、線型マルコフ決定過程の初期の理論的結果は線形近似の次元に匹敵する後悔の限界を与える。
理想的には、最適なポリシーを符号化するのに十分な近似の最小次元を自動的に識別したい。
この目的に向けて、既知の後悔保証を持つ候補 rl アルゴリズムが与えられたとき、関数近似を伴う rl におけるモデル選択の問題を考える。
学習者の目標は、それが \textit{a priori} であることを知らずに最適なアルゴリズムの複雑さに適応することである。
単純な統計テストを用いて,ますます複雑なモデルを逐次拒否するメタアルゴリズムを提案する。
実現可能性を満たす少なくとも1つの候補が与えられた場合、メタアルゴリズムが最適な複雑性に適応することを証明し、$\tilde{O}(L^{5/6} T^{2/3})が最適候補の$\tilde{O}(\sqrt T)が後悔すると、$T$はエピソード数であり、$L$はアルゴリズムの数である。
次元と地平線の依存関係は最良の候補に対して最適であり、メタアルゴリズムアプローチは複数の候補アルゴリズムとモデルを組み込むのに柔軟です。
最後に、メタアルゴリズムは、候補が達成できる最大値間のギャップに依存する、インスタンス依存の後悔境界を著しく改善することを示す。
関連論文リスト
- Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Submodular Maximization subject to a Knapsack Constraint: Combinatorial
Algorithms with Near-optimal Adaptive Complexity [13.416309759182635]
我々は、ほぼ最適の$O(log n)$適応複雑性を持つ非単調部分モジュラーアルゴリズムに対する最初の定数近似を得る。
我々のアルゴリズムは$tildeO(n2)$の値クエリを要求するが、代わりに$tildeO(n)$で実行するように修正できる。
これはまた、この問題に対して線形適応的な複雑性を持つ最初のアプローチであり、濃度制約や単調な目的の特別な場合であっても、最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2021-02-16T18:15:51Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - A Model-free Learning Algorithm for Infinite-horizon Average-reward MDPs
with Near-optimal Regret [44.374427255708135]
無限水平平均逆マルコフ決定過程(MDP)のモデルフリーアルゴリズムである探索強化Q-ラーニング(EE-QL)を提案する。
EE-QLは、最適平均報酬のオンライン集中近似が利用可能であると仮定する。
これは、エルゴード的な仮定なしに$O(sqrt T)$後悔を達成する最初のモデル自由学習アルゴリズムであり、対数的因子を除いて、下位境界の$T$と一致する。
論文 参考訳(メタデータ) (2020-06-08T05:09:32Z) - Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文 参考訳(メタデータ) (2020-03-30T10:43:56Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。