論文の概要: Combinatorial Semi-Bandit in the Non-Stationary Environment
- arxiv url: http://arxiv.org/abs/2002.03580v2
- Date: Sat, 19 Jun 2021 06:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 08:17:51.905393
- Title: Combinatorial Semi-Bandit in the Non-Stationary Environment
- Title(参考訳): 非定常環境における組合せセミバンド
- Authors: Wei Chen, Liwei Wang, Haoyu Zhao, Kai Zheng
- Abstract要約: スイッチングケースと動的ケースの両方において,非定常半帯域問題について検討する。
別の手法を用いることで、我々のアルゴリズムは $mathcal S$ あるいは $mathcal V$ のパラメータをもはや知る必要がなくなるが、後悔する境界は準最適になる可能性がある。
- 参考スコア(独自算出の注目度): 27.394284055156795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the non-stationary combinatorial semi-bandit
problem, both in the switching case and in the dynamic case. In the general
case where (a) the reward function is non-linear, (b) arms may be
probabilistically triggered, and (c) only approximate offline oracle exists
\cite{wang2017improving}, our algorithm achieves
$\tilde{\mathcal{O}}(\sqrt{\mathcal{S} T})$ distribution-dependent regret in
the switching case, and $\tilde{\mathcal{O}}(\mathcal{V}^{1/3}T^{2/3})$ in the
dynamic case, where $\mathcal S$ is the number of switchings and $\mathcal V$
is the sum of the total ``distribution changes''. The regret bounds in both
scenarios are nearly optimal, but our algorithm needs to know the parameter
$\mathcal S$ or $\mathcal V$ in advance.
We further show that by employing another technique, our algorithm no longer
needs to know the parameters $\mathcal S$ or $\mathcal V$ but the regret bounds
could become suboptimal.
In a special case where the reward function is linear and we have an exact
oracle, we design a parameter-free algorithm that achieves nearly optimal
regret both in the switching case and in the dynamic case without knowing the
parameters in advance.
- Abstract(参考訳): 本稿では,スイッチングケースと動的ケースの両方において,非定常組合せ半帯域問題について検討する。
b) 腕が確率的に引き起こされる場合,及び
(c) 近似的なオフラインオラクルのみが存在し、我々のアルゴリズムは、スイッチングケースにおける分布依存の後悔を$\tilde{\mathcal{O}}(\sqrt{\mathcal{S} T})$と、動的ケースでは$\tilde{\mathcal{O}}(\mathcal{V}^{1/3}T^{2/3})$を達成する。
両方のシナリオにおける後悔境界はほぼ最適であるが、我々のアルゴリズムは事前に$\mathcal S$または$\mathcal V$を知る必要がある。
さらに、他の手法を用いることで、我々のアルゴリズムはパラメータ $\mathcal S$ あるいは $\mathcal V$ を知る必要がなくなるが、後悔する境界は最適でないことを示す。
- Partially Unitary Learning [0.0]
ヒルベルト空間の最適写像 $IN$ of $left|psirightrangle$ と $OUT$ of $left|phirightrangle$ が提示される。
論文 参考訳(メタデータ) (2024-05-16T17:13:55Z) - Memory-Constrained Algorithms for Convex Optimization via Recursive
Cutting-Planes [23.94542304111204]
勾配降下法と切断平面法の間に正のトレードオフを与えるアルゴリズムの第一級は、$epsilonleq 1/sqrt d$である。
規則$epsilon leq d-Omega(d)$では、$p=d$のアルゴリズムが情報理論の最適メモリ利用を実現し、勾配降下のオラクル-複雑度を改善する。
論文 参考訳(メタデータ) (2023-06-16T17:00:51Z) - Contextual Recommendations and Low-Regret Cutting-Plane Algorithms [49.91214213074933]
論文 参考訳(メタデータ) (2021-06-09T05:39:05Z) - Linear Bandits on Uniformly Convex Sets [88.3673525964507]
線形バンディットアルゴリズムはコンパクト凸作用集合上の $tildemathcalo(nsqrtt)$ pseudo-regret 境界を与える。
論文 参考訳(メタデータ) (2021-03-10T07:33:03Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z) - Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits
with Linear Payoff Functions [53.77572276969548]
我々は、C$2$UCBアルゴリズムが分割マトロイド制約に対して最適な後悔結合$tildeO(dsqrtkT + dk)$を有することを示した。
論文 参考訳(メタデータ) (2021-01-20T04:29:18Z) - Thresholded Lasso Bandit [70.17389393497125]
Thresholded Lasso banditは、報酬関数を定義するベクトルとスパースサポートを推定するアルゴリズムである。
一般には $mathcalO( log d + sqrtT )$ や $mathcalO( log d + sqrtT )$ としてスケールする非漸近的後悔の上界を確立する。
論文 参考訳(メタデータ) (2020-10-22T19:14:37Z) - Dimension Reduction in Contextual Online Learning via Nonparametric
Variable Selection [8.250528027387196]
我々は,非パラメトリックな設定にLASSOを適用するために,ビンニングや投票などの新しいアイデアを取り入れたtextitBV-LASSO という変数選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-17T13:08:45Z) - Taking a hint: How to leverage loss predictors in contextual bandits? [63.546913998407405]
最適な後悔は$mathcalO(minsqrtT, sqrtmathcalETfrac13)$である。
論文 参考訳(メタデータ) (2020-03-04T07:36:38Z)