論文の概要: Regret Balancing for Bandit and RL Model Selection
- arxiv url: http://arxiv.org/abs/2006.05491v1
- Date: Tue, 9 Jun 2020 20:11:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 14:08:48.187871
- Title: Regret Balancing for Bandit and RL Model Selection
- Title(参考訳): BanditとRLモデル選択のためのレギュレットバランシング
- Authors: Yasin Abbasi-Yadkori, Aldo Pacchiano, My Phan
- Abstract要約: 効果的なモデル選択戦略は,オンライン手法で最高の学習アルゴリズムに適応することを示す。
ほぼ最適に近いモデル選択戦略が、暗黙的に後悔のバランスをとることを示す。
- 参考スコア(独自算出の注目度): 31.38702762525305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider model selection in stochastic bandit and reinforcement learning
problems. Given a set of base learning algorithms, an effective model selection
strategy adapts to the best learning algorithm in an online fashion. We show
that by estimating the regret of each algorithm and playing the algorithms such
that all empirical regrets are ensured to be of the same order, the overall
regret balancing strategy achieves a regret that is close to the regret of the
optimal base algorithm. Our strategy requires an upper bound on the optimal
base regret as input, and the performance of the strategy depends on the
tightness of the upper bound. We show that having this prior knowledge is
necessary in order to achieve a near-optimal regret. Further, we show that any
near-optimal model selection strategy implicitly performs a form of regret
balancing.
- Abstract(参考訳): 確率的バンディットと強化学習問題におけるモデル選択を考える。
ベース学習アルゴリズムのセットが与えられると、効果的なモデル選択戦略は、オンライン形式で最高の学習アルゴリズムに適応する。
我々は,各アルゴリズムの後悔を推定し,全ての経験的後悔が同じ順序で確実にされるようにアルゴリズムを演奏することにより,全体の後悔バランス戦略が最適なベースアルゴリズムの後悔に近い後悔を達成することを示す。
我々の戦略は入力として最適ベース後悔に上限を課し、戦略の性能は上界の厳密性に依存する。
最善の後悔を達成するためには,この事前知識が不可欠であることを示す。
さらに, ほぼ最適モデル選択戦略が, 暗黙的に後悔のバランスをとることを示す。
関連論文リスト
- Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - Learning Rate-Free Reinforcement Learning: A Case for Model Selection with Non-Stationary Objectives [22.06443176759265]
モデル選択は強化学習アルゴリズムの失敗モードを改善するのに有効であることを示す。
本研究では,モデル選択法を用いて学習速度を最適に選択する学習速度自由強化学習のためのモデル選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T18:55:58Z) - Data-Driven Online Model Selection With Regret Guarantees [45.199330926090624]
帯域フィードバックのある環境における逐次意思決定のためのモデル選択について検討する。
モデル選択は, 後悔バランスによって行われるが, 最近の文献とは異なり, 基本学習者に関する事前知識を前提としない。
我々は、このより野心的な後悔の概念で機能する2つのモデル選択アルゴリズムを設計し、後悔バランスによるモデル選択保証の証明に加えて、疑わしい後悔境界ではなく、実際の後悔を扱うという魅力的な実践的メリットを実験的に実証する。
論文 参考訳(メタデータ) (2023-06-05T13:43:34Z) - Regret-Optimal Model-Free Reinforcement Learning for Discounted MDPs
with Short Burn-In Time [13.545356254920584]
本稿では,分散削減を利用したモデルフリーアルゴリズムと,実行方針を低速かつ適応的に切り替える新しい手法を提案する。
これは割引設定における最初の後悔の最適モデルフリーアルゴリズムであり、バーンイン時間の短縮によるメリットがある。
論文 参考訳(メタデータ) (2023-05-24T20:22:43Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-24T07:14:57Z) - Boosting for Online Convex Optimization [64.15578413206715]
多数の専門家とオンライン凸最適化の意思決定フレームワークを検討します。
弱学習アルゴリズムは、基本クラスの専門家に対するおよその後悔を保証するメカニズムとして定義します。
ベースクラスの凸船体に対するほぼ最適の後悔を保証する効率的なブースティングアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-02-18T12:30:49Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Regret Bound Balancing and Elimination for Model Selection in Bandits
and RL [34.15978290083909]
バンディットおよび強化学習問題におけるアルゴリズムの簡易モデル選択手法を提案する。
我々は、このアプローチの総後悔は、最も有効な候補者の後悔の回数が乗算的要因であることを証明します。
線形バンディットのモデル選択における最近の取り組みとは違って,我々のアプローチは,敵の環境によってコンテキスト情報が生成されるケースをカバーできるほど多用途である。
論文 参考訳(メタデータ) (2020-12-24T00:53:42Z) - Model Selection in Contextual Stochastic Bandit Problems [51.94632035240787]
基本アルゴリズムを選択できるメタアルゴリズムを開発した。
基本アルゴリズムの1つが$O(sqrtT)$後悔している場合でも、一般的には$Omega(sqrtT)$後悔よりも良いものを得ることはできません。
論文 参考訳(メタデータ) (2020-03-03T18:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。