論文の概要: A Unified Framework for Conservative Exploration
- arxiv url: http://arxiv.org/abs/2106.11692v1
- Date: Tue, 22 Jun 2021 11:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:12:52.712834
- Title: A Unified Framework for Conservative Exploration
- Title(参考訳): 保守的探索のための統一フレームワーク
- Authors: Yunchang Yang, Tianhao Wu, Han Zhong, Evrard Garcelon, Matteo Pirotta,
Alessandro Lazaric, Liwei Wang, Simon S. Du
- Abstract要約: 我々は, エージェントに最低限の基準方針の遂行を依頼される保守的制約を条件として, 盗賊と強化学習(RL)について検討する。
本稿では,保守的な盗賊とRLのための統一的な枠組みを提案し,基本方針の運用から得られる必要十分予算を計算することを目的とする。
- 参考スコア(独自算出の注目度): 115.7063101600773
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study bandits and reinforcement learning (RL) subject to a conservative
constraint where the agent is asked to perform at least as well as a given
baseline policy. This setting is particular relevant in real-world domains
including digital marketing, healthcare, production, finance, etc. For
multi-armed bandits, linear bandits and tabular RL, specialized algorithms and
theoretical analyses were proposed in previous work. In this paper, we present
a unified framework for conservative bandits and RL, in which our core
technique is to calculate the necessary and sufficient budget obtained from
running the baseline policy. For lower bounds, our framework gives a black-box
reduction that turns a certain lower bound in the nonconservative setting into
a new lower bound in the conservative setting. We strengthen the existing lower
bound for conservative multi-armed bandits and obtain new lower bounds for
conservative linear bandits, tabular RL and low-rank MDP. For upper bounds, our
framework turns a certain nonconservative upper-confidence-bound (UCB)
algorithm into a conservative algorithm with a simple analysis. For multi-armed
bandits, linear bandits and tabular RL, our new upper bounds tighten or match
existing ones with significantly simpler analyses. We also obtain a new upper
bound for conservative low-rank MDP.
- Abstract(参考訳): 我々は, エージェントに最低限の基準方針の遂行を依頼される保守的制約を条件として, 盗賊と強化学習(RL)について検討する。
この設定は、デジタルマーケティング、ヘルスケア、生産、金融など、現実世界の領域に特に関係している。
マルチアームバンディットでは, 線形バンディットとタブ状RL, 特殊アルゴリズム, 理論的解析が提案されている。
本稿では,保守的バンディットとrlの統一的な枠組みについて述べる。本手法の中核となる手法は,ベースライン・ポリシーの運用から得られる必要な予算と十分な予算を計算することである。
下限に対して、我々のフレームワークは、非保存的な設定で下限を保守的な設定で新しい下限に変換するブラックボックス還元を与える。
我々は,保守的多腕バンディットに対する既存の下限を強化し,保守的線形バンディット,表型rl,低ランクmdpに対する新しい下限を得る。
上界に対して、我々のフレームワークは、ある非保守的な上信頼結合(UCB)アルゴリズムを、単純な解析で保守的なアルゴリズムに変換する。
多武装の包帯、線形包帯、および表状のRLの場合、我々の新しい上界は、非常に単純な分析で既存のものと一致または一致する。
また,保守的低位MDPに対する新たな上限も得られる。
関連論文リスト
- Contextual bandits with concave rewards, and an application to fair
ranking [108.48223948875685]
CBCR (Contextual Bandits with Concave Rewards) に対する反省点のある最初のアルゴリズムを提案する。
我々は,スカラー・リワード問題に対するCBCRの後悔から,新たな縮小を導出した。
推薦の公正さによって動機づけられたCBCRの特別事例として,ランク付けと公正を意識した目的について述べる。
論文 参考訳(メタデータ) (2022-10-18T16:11:55Z) - Revisiting Peng's Q($\lambda$) for Modern Reinforcement Learning [69.39357308375212]
オフライン多段階強化学習アルゴリズムは、保守的および非保守的アルゴリズムからなる。
最近の研究では、非保守的アルゴリズムが保守的アルゴリズムよりも優れていることが示されている。
論文 参考訳(メタデータ) (2021-02-27T02:29:01Z) - A One-Size-Fits-All Solution to Conservative Bandit Problems [32.907883501286]
我々は、サンプルパス報酬制約を伴う保守的なバンディット問題(CBP)のファミリーについて研究する。
CBPに対するOne-Size-Fits-Allソリューションを提案し、その応用を3つの包括問題に提示する。
論文 参考訳(メタデータ) (2020-12-14T08:50:23Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Meta-Learning Bandit Policies by Gradient Ascent [38.817374110000735]
バンディットポリシーは、環境パラメータの事前分布を仮定して、あらゆる問題の場合やベイズ的な意味での後悔を最小限に抑えるように設計されている。
本稿では,この2つの極端の間に生じる帯域幅の問題について検討する。
本稿では,パラメータ化バンディットポリシーの利用法を提案する。
論文 参考訳(メタデータ) (2020-06-09T07:45:41Z) - Locally Differentially Private (Contextual) Bandits Learning [55.63825598391525]
本論文では,局所的差分性(LDP)バンディット学習について検討する。
我々は,DP保証を用いて,文脈自由な帯域幅学習問題を解くことのできる,シンプルなブラックボックス削減フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-01T04:02:00Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。