論文の概要: Provably More Efficient Q-Learning in the
One-Sided-Feedback/Full-Feedback Settings
- arxiv url: http://arxiv.org/abs/2007.00080v2
- Date: Fri, 2 Oct 2020 20:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 05:04:30.181648
- Title: Provably More Efficient Q-Learning in the
One-Sided-Feedback/Full-Feedback Settings
- Title(参考訳): 片面フィードバック/フルフィードバック設定におけるより効率的なq-learning
- Authors: Xiao-Yue Gong, David Simchi-Levi
- Abstract要約: 本稿では,既存のアルゴリズムよりも効率が向上した新しいQ-ラーニングアルゴリズムであるElimination-Based Half-Q-Learning(HQL)を提案する。
また、フルフィードバック設定のためのアルゴリズムであるFull-Q-Learning(FQL)の簡易版も提供します。
我々の数値実験は、HQLとFQLの優れた効率と、強化学習とよりリッチなフィードバックモデルを組み合わせる可能性を示している。
- 参考スコア(独自算出の注目度): 14.290119665435121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the episodic version of the classical inventory control problem,
we propose a new Q-learning-based algorithm, Elimination-Based Half-Q-Learning
(HQL), that enjoys improved efficiency over existing algorithms for a wide
variety of problems in the one-sided-feedback setting. We also provide a
simpler variant of the algorithm, Full-Q-Learning (FQL), for the full-feedback
setting. We establish that HQL incurs $ \tilde{\mathcal{O}}(H^3\sqrt{ T})$
regret and FQL incurs $\tilde{\mathcal{O}}(H^2\sqrt{ T})$ regret, where $H$ is
the length of each episode and $T$ is the total length of the horizon. The
regret bounds are not affected by the possibly huge state and action space. Our
numerical experiments demonstrate the superior efficiency of HQL and FQL, and
the potential to combine reinforcement learning with richer feedback models.
- Abstract(参考訳): 従来の在庫管理問題のエピソディック版に動機づけられ,一方的フィードバック設定において,既存のアルゴリズムよりも効率性が向上する新しいq-learning-based algorithm, elimination-based half-q-learning (hql)を提案する。
また、フルフィードバック設定のためのアルゴリズムであるFull-Q-Learning(FQL)の簡易版も提供します。
HQL は $ \tilde{\mathcal{O}}(H^3\sqrt{T})$ regret であり、FQL は $\tilde{\mathcal{O}}(H^2\sqrt{T})$ regret である。
後悔の限界は、おそらく巨大な状態と行動空間に影響されない。
我々の数値実験は、HQLとFQLの優れた効率と、強化学習とよりリッチなフィードバックモデルを組み合わせる可能性を示している。
関連論文リスト
- Online Learning with Sublinear Best-Action Queries [15.625072719419727]
本研究では,与えられた時間ステップにおける最善の行動の識別を事前に明らかにする,emphbest-actionクエリのパワーについて検討する。
完全なフィードバックモデルでは、$k$クエリは$Thetaleft(minleftsqrt T, frac Tkrightright)$の最適後悔を達成するのに十分である。
論文 参考訳(メタデータ) (2024-07-23T09:59:43Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Ensemble Bootstrapping for Q-Learning [15.07549655582389]
Ensemble Bootstrapped Q-Learning(EBQL)という新しいバイアス低減アルゴリズムを紹介します。
EBQLライクな更新は、独立確率変数の集合の最大平均を推定する際に低いMSEをもたらす。
過大評価と過小評価の両方が準最適性能をもたらす領域が存在することを示す。
論文 参考訳(メタデータ) (2021-02-28T10:19:47Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z) - Efficient Optimistic Exploration in Linear-Quadratic Regulators via
Lagrangian Relaxation [107.06364966905821]
線形2次レギュレータ(LQR)設定における探索・探索ジレンマについて検討した。
有限 MDP に対する楽観的アルゴリズムで用いられる拡張値反復アルゴリズムに着想を得て,Oulq の楽観的最適化を緩和することを提案する。
我々は、少なくとも$Obig(log (1/epsilon)big)$ Riccati方程式を解くことで、$epsilon$-OptimisticControllerを効率的に計算できることを示した。
論文 参考訳(メタデータ) (2020-07-13T16:30:47Z) - Lookahead-Bounded Q-Learning [8.738692817482526]
本稿では,新しいQ-ラーニング法であるルックアヘッドバウンドQ-ラーニングアルゴリズム(LBQL)を紹介する。
われわれのアプローチは、高価なシミュレーションや現実世界の対話を必要とする問題に特に魅力的である。
論文 参考訳(メタデータ) (2020-06-28T19:50:55Z) - Preventing Value Function Collapse in Ensemble {Q}-Learning by
Maximizing Representation Diversity [0.0]
MaxminとEnsemble Q-learningアルゴリズムは、過大評価バイアスを減らすために、学習者のアンサンブルが提供する異なる推定値を使用している。
残念ながら、これらの学習者はパラメトリックまたは表現空間において同じ点に収束し、古典的な単一ニューラルネットワークDQNに戻ることができる。
経済理論とコンセンサス最適化から着想を得た5つの正規化関数を提案し,比較する。
論文 参考訳(メタデータ) (2020-06-24T15:53:20Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage
Decomposition [59.34067736545355]
有限水平型マルコフ決定過程(MDP)における強化学習問題を,S$状態,A$動作,エピソード長$H$を用いて検討した。
モデルフリーアルゴリズム UCB-Advantage を提案し、$T = KH$ および $K$ が再生すべきエピソード数である場合に $tildeO(sqrtH2SAT)$ regret を達成することを証明した。
論文 参考訳(メタデータ) (2020-04-21T14:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。