論文の概要: Autoregressive Bandits
- arxiv url: http://arxiv.org/abs/2212.06251v2
- Date: Mon, 19 Feb 2024 19:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 21:57:42.718705
- Title: Autoregressive Bandits
- Title(参考訳): 自己回帰バンド
- Authors: Francesco Bacchiocchi, Gianmarco Genalti, Davide Maran, Marco Mussi,
Marcello Restelli, Nicola Gatti, Alberto Maria Metelli
- Abstract要約: 本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
- 参考スコア(独自算出の注目度): 58.46584210388307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive processes naturally arise in a large variety of real-world
scenarios, including stock markets, sales forecasting, weather prediction,
advertising, and pricing. When facing a sequential decision-making problem in
such a context, the temporal dependence between consecutive observations should
be properly accounted for guaranteeing convergence to the optimal policy. In
this work, we propose a novel online learning setting, namely, Autoregressive
Bandits (ARBs), in which the observed reward is governed by an autoregressive
process of order $k$, whose parameters depend on the chosen action. We show
that, under mild assumptions on the reward process, the optimal policy can be
conveniently computed. Then, we devise a new optimistic regret minimization
algorithm, namely, AutoRegressive Upper Confidence Bound (AR-UCB), that suffers
sublinear regret of order $\widetilde{\mathcal{O}} \left(
\frac{(k+1)^{3/2}\sqrt{nT}}{(1-\Gamma)^2}\right)$, where $T$ is the
optimization horizon, $n$ is the number of actions, and $\Gamma < 1$ is a
stability index of the process. Finally, we empirically validate our algorithm,
illustrating its advantages w.r.t. bandit baselines and its robustness to
misspecification of key parameters.
- Abstract(参考訳): 自己回帰的プロセスは、株式市場、売上予測、天気予報、広告、価格など、様々な現実世界のシナリオで自然に発生する。
このような文脈において、逐次的意思決定問題に直面した場合には、最適方針への収束を保証するために、連続観測間の時間的依存性を適切に考慮すべきである。
本研究では,自己回帰的バンディット (autoregressive bandits, arbs) という新しいオンライン学習環境を提案する。
報奨プロセスにおける軽度な仮定の下では,最適政策が都合よく計算できることを示す。
次に、新しい楽観的な後悔の最小化アルゴリズム、すなわちar-ucb(autoregressive upper confidence bound)を考案し、これは$\widetilde{\mathcal{o}} \left( \frac{(k+1)^{3/2}\sqrt{nt}}{(1-\gamma)^2}\right)$、ここで$t$は最適化の地平線、$n$はアクションの数、$\gamma < 1$はプロセスの安定性指標である。
最後に,w.r.t.banditベースラインとキーパラメータの誤特定に対するロバスト性を示し,経験的にアルゴリズムを検証する。
関連論文リスト
- Online Resource Allocation in Episodic Markov Decision Processes [1.8416014644193066]
本稿では, 有限水平制約マルコフ決定過程におけるオンライン割当問題として, 問題を定式化する。
本稿では,観測・観測・観測・観測体制の整備と既存の決定・観測体制の改善について述べる。
平均報酬と平均資源消費関数にアクセスできる静的最適政策に対する後悔は、高い確率で$tilde O(rho-1H3/2SsqrtAT)$で束縛されていることを示す。
論文 参考訳(メタデータ) (2023-05-18T06:28:34Z) - Towards Painless Policy Optimization for Constrained MDPs [46.12526917024248]
我々は、無限の地平線における政策最適化、$gamma$-discounted constrained Markov decision process (CMDP)について研究する。
我々の目標は、小さな制約違反で大きな期待された報酬を達成する政策を返却することである。
本稿では,任意のアルゴリズムに対して,報酬の準最適性と制約違反を拘束できる汎用的原始双対フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-11T15:08:09Z) - Variational Bayesian Optimistic Sampling [43.130465039780084]
エージェントが探索と搾取のバランスをとる必要があるオンラインシーケンシャルな意思決定問題を考える。
我々は、多腕バンディットの場合、トンプソンサンプリングポリシーを含むベイズ楽観的な政策の集合を導出する。
楽観的な集合におけるポリシーを生成するアルゴリズムは、$T$ラウンド後の$A$アクションの問題に対して$tilde O(sqrtAT)$ Bayesian regretを楽しんでいることが示される。
論文 参考訳(メタデータ) (2021-10-29T11:28:29Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Reward Biased Maximum Likelihood Estimation for Reinforcement Learning [13.820705458648233]
マルコフ連鎖の適応制御のためのRBMLE(Reward-Biased Maximum Likelihood Estimate)を提案した。
我々は、現在最先端のアルゴリズムと同様に、$mathcalO( log T)$が$T$の時間的水平線上で後悔していることを示します。
論文 参考訳(メタデータ) (2020-11-16T06:09:56Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。