論文の概要: Tightening Exploration in Upper Confidence Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.09656v3
- Date: Mon, 12 Apr 2021 19:21:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:20:19.641282
- Title: Tightening Exploration in Upper Confidence Reinforcement Learning
- Title(参考訳): 上部信頼強化学習における探索の強化
- Authors: Hippolyte Bourel and Odalric-Ambrym Maillard and Mohammad Sadegh
Talebi
- Abstract要約: 高信頼強化学習(UCRL2)は、未知のマルコフ決定過程において、後悔の最小化を行う一般的な方法である。
UCRL2のラインに従ってUCRL3を提示するが、2つの重要な変更を加えている。
我々は,標準環境における数値実験を通じて,探査の削減がかなりの数値的改善をもたらすことを実証した。
- 参考スコア(独自算出の注目度): 17.05936823207084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The upper confidence reinforcement learning (UCRL2) algorithm introduced in
(Jaksch et al., 2010) is a popular method to perform regret minimization in
unknown discrete Markov Decision Processes under the average-reward criterion.
Despite its nice and generic theoretical regret guarantees, this algorithm and
its variants have remained until now mostly theoretical as numerical
experiments in simple environments exhibit long burn-in phases before the
learning takes place. In pursuit of practical efficiency, we present UCRL3,
following the lines of UCRL2, but with two key modifications: First, it uses
state-of-the-art time-uniform concentration inequalities to compute confidence
sets on the reward and (component-wise) transition distributions for each
state-action pair. Furthermore, to tighten exploration, it uses an adaptive
computation of the support of each transition distribution, which in turn
enables us to revisit the extended value iteration procedure of UCRL2 to
optimize over distributions with reduced support by disregarding low
probability transitions, while still ensuring near-optimism. We demonstrate,
through numerical experiments in standard environments, that reducing
exploration this way yields a substantial numerical improvement compared to
UCRL2 and its variants. On the theoretical side, these key modifications enable
us to derive a regret bound for UCRL3 improving on UCRL2, that for the first
time makes appear notions of local diameter and local effective support, thanks
to variance-aware concentration bounds.
- Abstract(参考訳): 上位信頼強化学習(ucrl2)アルゴリズム(jaksch et al., 2010)は、平均回帰基準の下で未知の離散マルコフ決定過程において後悔を最小化する一般的な手法である。
良質で一般的な理論上の後悔の保証にもかかわらず、このアルゴリズムとその変種は、学習が行われる前に単純な環境における数値実験が長い燃焼相を示すため、これまでほとんど理論上は存在しなかった。
実用的効率を追求するために,ucrl2 の行に従って ucrl3 を提示するが,2つの重要な修正がなされている。
さらに,各遷移分布のサポートを適応的に計算することにより,ucrl2の拡張値反復手順を再検討し,低確率遷移を無視しながら近似最適化を保ちながら,支援の少ない分布を最適化する。
標準環境での数値実験により、この方法での探査を減らし、UCRL2とその変種と比較してかなりの数値的改善をもたらすことを示した。
理論的には、これらの重要な修正により、UCRL2で改善されたUCRL3に対する後悔の束縛が導出され、局所的な直径と局所的な有効支持の概念が初めて現れる。
関連論文リスト
- One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Opportunistic Episodic Reinforcement Learning [9.364712393700056]
機会論的強化学習(英: opportunistic reinforcement learning)は、変分因子として知られる外部環境条件下で、最適な行動を選択することの後悔が変化する強化学習の新たな変種である。
我々の直感は、変動係数が高いときにさらに活用し、変動係数が低いときにさらに探索することである。
我々のアルゴリズムは、探索をガイドするために変動係数に依存した楽観性を導入することで、強化学習のための探索・探索トレードオフのバランスをとる。
論文 参考訳(メタデータ) (2022-10-24T18:02:33Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Boosting RANSAC via Dual Principal Component Pursuit [24.942079487458624]
本稿では,強力な理論的支援と効率的なアルゴリズムを備えた頑健な部分空間学習手法としてDual principal Component Pursuit (DPCP)を紹介した。
2次元ホモグラフ、基本行列、基本行列、および3次元ホモグラフテンソルの推定実験は、我々のアプローチが最先端の代替よりも一貫して精度が高いことを示している。
論文 参考訳(メタデータ) (2021-10-06T17:04:45Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Regressive Domain Adaptation for Unsupervised Keypoint Detection [67.2950306888855]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
本稿では,教師なしキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
提案手法は,異なるデータセット上のPCKにおいて,8%から11%の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-03-10T16:45:22Z) - On Stochastic Variance Reduced Gradient Method for Semidefinite
Optimization [14.519696724619074]
SVRG法は最も有効な方法の1つと考えられている。
半定型プログラミング(SDP)に適応する場合、理論と実践の間には大きなギャップがある
本稿では,このギャップを,半定値最適化に適応したオプションIを用いて,元のSVRGの新たな変種を利用して埋める。
論文 参考訳(メタデータ) (2021-01-01T13:55:32Z) - Fast Objective & Duality Gap Convergence for Non-Convex Strongly-Concave
Min-Max Problems with PL Condition [52.08417569774822]
本稿では,深層学習(深層AUC)により注目度が高まっている,円滑な非凹部min-max問題の解法に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-12T00:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。