論文の概要: Finite Continuum-Armed Bandits
- arxiv url: http://arxiv.org/abs/2010.12236v2
- Date: Tue, 3 Nov 2020 14:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:54:42.703383
- Title: Finite Continuum-Armed Bandits
- Title(参考訳): 有限連続整列バンド
- Authors: Solenne Gaucher (LMO)
- Abstract要約: エージェントが$T$Ressourcesを持ち、より多くのアクションに割り当てる状況を考える。
エージェントの目標は、彼女の累積報酬を最大化することです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a situation where an agent has $T$ ressources to be allocated to
a larger number $N$ of actions. Each action can be completed at most once and
results in a stochastic reward with unknown mean. The goal of the agent is to
maximize her cumulative reward. Non trivial strategies are possible when side
information on the actions is available, for example in the form of covariates.
Focusing on a nonparametric setting, where the mean reward is an unknown
function of a one-dimensional covariate, we propose an optimal strategy for
this problem. Under natural assumptions on the reward function, we prove that
the optimal regret scales as $O(T^{1/3})$ up to poly-logarithmic factors when
the budget $T$ is proportional to the number of actions $N$. When $T$ becomes
small compared to $N$, a smooth transition occurs. When the ratio $T/N$
decreases from a constant to $N^{-1/3}$, the regret increases progressively up
to the $O(T^{1/2})$ rate encountered in continuum-armed bandits.
- Abstract(参考訳): エージェントが$t$のリソースを持っていて、より大きな数である$n$のアクションに割り当てられる状況を考える。
各アクションは最大1回完了でき、未知の平均を持つ確率的な報酬が得られる。
エージェントの目標は、彼女の累積報酬を最大化することです。
非自明な戦略は、例えば共変量(covariates)の形で、アクションのサイド情報が利用可能であるときに可能である。
平均報酬が1次元共変量の未知の関数である非パラメトリックな設定に着目し、この問題に対して最適な戦略を提案する。
報酬関数の自然な仮定の下では、最適の後悔は$O(T^{1/3})$として、予算$T$がアクションの数に比例するときの多対数的因子までスケールすることが証明される。
$T$が$N$に比べて小さくなると、滑らかな遷移が起こる。
比$T/N$が定数から$N^{-1/3}$に減少すると、後悔は連続武装の包帯で遭遇する$O(T^{1/2})$レートまで徐々に増加する。
関連論文リスト
- Improved Regret Bound for Safe Reinforcement Learning via Tighter Cost Pessimism and Reward Optimism [1.4999444543328293]
本稿では,新しいコストと報酬関数推定器に基づくモデルベースアルゴリズムを提案する。
我々のアルゴリズムは、$widetildemathcalO((bar C - bar C_b)-1H2.5 SsqrtAK)$の残念な上限を達成する。
論文 参考訳(メタデータ) (2024-10-14T04:51:06Z) - Variance-aware robust reinforcement learning with linear function
approximation with heavy-tailed rewards [6.932056534450556]
AdaOFUL と VARA という2つのアルゴリズムを,重み付き報酬の存在下でのオンラインシーケンシャルな意思決定のために提案する。
AdaOFULは、$widetildemathcalObigの最先端の後悔境界を達成する。
VarA は $widetildemathcalO(dsqrtHmathcalG*K)$ のより厳密な分散を考慮した後悔境界を達成する。
論文 参考訳(メタデータ) (2023-03-09T22:16:28Z) - Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR [58.40575099910538]
本研究は,リスク許容度が$tau$のCVaR(Conditional Value at Risk)の目的に着目し,リスクに敏感な強化学習(RL)について検討する。
ミニマックスCVaRの後悔率は$Omega(sqrttau-1AK)$で、$A$はアクションの数、$K$はエピソード数である。
我々は,このアルゴリズムが連続性仮定の下で$widetilde O(tau-1sqrtSAK)$の最適後悔を達成し,一般に近似することを示す。
論文 参考訳(メタデータ) (2023-02-07T02:22:31Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - A New Look at Dynamic Regret for Non-Stationary Stochastic Bandits [11.918230810566945]
本研究では,学習過程において各腕の報酬統計が数回変化しうる非定常的マルチアームバンディット問題について検討する。
我々は、$K$の武器付きバンディット問題において、ほぼ最適の$widetilde O(sqrtK N(S+1))$ dynamic regretを実現する方法を提案する。
論文 参考訳(メタデータ) (2022-01-17T17:23:56Z) - On Submodular Contextual Bandits [92.45432756301231]
作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
論文 参考訳(メタデータ) (2021-12-03T21:42:33Z) - Provably Breaking the Quadratic Error Compounding Barrier in Imitation
Learning, Optimally [58.463668865380946]
状態空間 $mathcalS$ を用いたエピソードマルコフ決定過程 (MDPs) における模擬学習の統計的限界について検討する。
rajaraman et al (2020) におけるmdアルゴリズムを用いた準最適性に対する上限 $o(|mathcals|h3/2/n)$ を定式化する。
Omega(H3/2/N)$ $mathcalS|geq 3$ であるのに対して、未知の遷移条件はよりシャープレートに悩まされる。
論文 参考訳(メタデータ) (2021-02-25T15:50:19Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Minimax Regret for Stochastic Shortest Path with Adversarial Costs and
Known Transition [37.6975819766632]
我々は、敵対コストと既知の移行で最短経路問題を研究します。
ミニマックスの後悔は,全情報設定と盗聴フィードバック設定に対して$widetildeO(sqrtDTstar K)$および$widetildeO(sqrtDTstar SA K)$であることを示す。
論文 参考訳(メタデータ) (2020-12-07T20:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。