論文の概要: Improved Algorithms for Conservative Exploration in Bandits
- arxiv url: http://arxiv.org/abs/2002.03221v1
- Date: Sat, 8 Feb 2020 19:35:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 22:29:48.326413
- Title: Improved Algorithms for Conservative Exploration in Bandits
- Title(参考訳): 帯域保存探索のための改良アルゴリズム
- Authors: Evrard Garcelon, Mohammad Ghavamzadeh, Alessandro Lazaric, Matteo
Pirotta
- Abstract要約: 文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
- 参考スコア(独自算出の注目度): 113.55554483194832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many fields such as digital marketing, healthcare, finance, and robotics,
it is common to have a well-tested and reliable baseline policy running in
production (e.g., a recommender system). Nonetheless, the baseline policy is
often suboptimal. In this case, it is desirable to deploy online learning
algorithms (e.g., a multi-armed bandit algorithm) that interact with the system
to learn a better/optimal policy under the constraint that during the learning
process the performance is almost never worse than the performance of the
baseline itself. In this paper, we study the conservative learning problem in
the contextual linear bandit setting and introduce a novel algorithm, the
Conservative Constrained LinUCB (CLUCB2). We derive regret bounds for CLUCB2
that match existing results and empirically show that it outperforms
state-of-the-art conservative bandit algorithms in a number of synthetic and
real-world problems. Finally, we consider a more realistic constraint where the
performance is verified only at predefined checkpoints (instead of at every
step) and show how this relaxed constraint favorably impacts the regret and
empirical performance of CLUCB2.
- Abstract(参考訳): デジタルマーケティング、ヘルスケア、金融、ロボティクスなど、多くの分野において、よくテストされた信頼性の高いベースラインポリシーが製品(例えばレコメンデーターシステム)で実行されることが一般的である。
しかし、基本方針はしばしば準最適である。
この場合、オンライン学習アルゴリズム(例えば、マルチアームのバンディットアルゴリズム)をデプロイしてシステムと対話し、学習プロセス中は、ベースライン自体のパフォーマンスよりもパフォーマンスがほとんど悪くならないという制約の下で、より良い最適ポリシーを学習することが望ましい。
本稿では,文脈線形帯域設定における保守的学習問題を考察し,保守的制約付きLinUCB(CLUCB2)という新しいアルゴリズムを導入する。
既存の結果と一致するclucb2の後悔の限界を導出し、多くの合成および実世界の問題において最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示します。
最後に、事前に定義されたチェックポイント(各ステップではなく)でパフォーマンスが検証されるより現実的な制約を検討し、この緩和された制約がCLUCB2の後悔と経験的なパフォーマンスにどのように影響するかを示す。
関連論文リスト
- Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Grid-Mapping Pseudo-Count Constraint for Offline Reinforcement Learning [2.01030009289749]
GPC (Grid-Mapping Pseudo-Count Method) と呼ばれる連続領域の擬数法を提案する。
GPCはSoft Actor-Criticアルゴリズム(SAC)と組み合わせて、GPC-SACと呼ばれる新しいアルゴリズムを得る。
D4RLデータセットの実験により、GPC-SACは他のアルゴリズムよりも性能が良く、計算コストも低いことを示した。
論文 参考訳(メタデータ) (2024-04-03T08:03:27Z) - Learning Adversarial MDPs with Stochastic Hard Constraints [37.24692425018]
本研究では,制約付き意思決定プロセスにおけるオンライン学習問題について,対向的損失と厳しい制約を伴う検討を行った。
我々は,各エピソードの制約を高い確率で満たしながら,サブ線形後悔を実現するアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-06T12:49:08Z) - Conservative Exploration for Policy Optimization via Off-Policy Policy
Evaluation [4.837737516460689]
我々は,少なくとも学習者がその性能を保証できなければならない保守的な探索の問題を,少なくとも基本方針と同程度によく研究する。
連続有限ホライゾン問題におけるポリシー最適化のための最初の保守的証明可能なモデルフリーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-24T10:59:32Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Contextual Bandits with Packing and Covering Constraints: A Modular Lagrangian Approach via Regression [65.8785736964253]
本稿では,線形制約付きコンテキスト帯域(CBwLC)について考察する。これは,アルゴリズムが全消費の線形制約を受ける複数のリソースを消費するコンテキスト帯域の変種である。
この問題はknapsacks (CBwK) を用いてコンテキスト的帯域幅を一般化し、制約のパッケージ化とカバー、および正および負のリソース消費を可能にする。
本稿では,回帰オラクルに基づくCBwLC(CBwK)のアルゴリズムについて述べる。このアルゴリズムは単純で,計算効率が良く,統計的に最適である。
論文 参考訳(メタデータ) (2022-11-14T16:08:44Z) - Learning-Augmented Algorithms for Online Linear and Semidefinite
Programming [9.849604820019394]
Semidefinite Programming (SDP) は線形および二次的に制約されたプログラミングを一般化する統一フレームワークである。
SDPをカバーするための制約がオンラインに届くと、最適解を近似するためには、既知の不可能な結果が存在する。
予測器が正確であれば、これらの不可能な結果を効率よく回避し、最適解に対する定数係数近似を達成できることが示される。
論文 参考訳(メタデータ) (2022-09-21T19:16:29Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-24T07:14:57Z) - Conservative Optimistic Policy Optimization via Multiple Importance
Sampling [0.0]
強化学習(Reinforcement Learning)は、AtariゲームやGoのゲームといった難題を解決することができる。
現代のディープRLアプローチは、まだ現実世界のアプリケーションでは広く使われていない。
論文 参考訳(メタデータ) (2021-03-04T20:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。