論文の概要: On Submodular Contextual Bandits
- arxiv url: http://arxiv.org/abs/2112.02165v1
- Date: Fri, 3 Dec 2021 21:42:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-11 06:32:28.137731
- Title: On Submodular Contextual Bandits
- Title(参考訳): 部分モジュラー文脈帯域について
- Authors: Dean P. Foster and Alexander Rakhlin
- Abstract要約: 作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
- 参考スコア(独自算出の注目度): 92.45432756301231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of contextual bandits where actions are subsets of a
ground set and mean rewards are modeled by an unknown monotone submodular
function that belongs to a class $\mathcal{F}$. We allow time-varying matroid
constraints to be placed on the feasible sets. Assuming access to an online
regression oracle with regret $\mathsf{Reg}(\mathcal{F})$, our algorithm
efficiently randomizes around local optima of estimated functions according to
the Inverse Gap Weighting strategy. We show that cumulative regret of this
procedure with time horizon $n$ scales as $O(\sqrt{n
\mathsf{Reg}(\mathcal{F})})$ against a benchmark with a multiplicative factor
$1/2$. On the other hand, using the techniques of (Filmus and Ward 2014), we
show that an $\epsilon$-Greedy procedure with local randomization attains
regret of $O(n^{2/3} \mathsf{Reg}(\mathcal{F})^{1/3})$ against a stronger
$(1-e^{-1})$ benchmark.
- Abstract(参考訳): 作用が基底集合の部分集合であり、平均報酬がクラス $\mathcal{F}$ に属する未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
実現可能な集合上に時間変化のマットロイド制約を置くことができる。
Inverse Gap Weighting 戦略により,オンライン回帰オラクルへのアクセスに$\mathsf{Reg}(\mathcal{F})$を仮定し,推定関数の局所最適化を効率的にランダム化する。
時間的地平線によるこの手順の累積的後悔は、$O(\sqrt{n \mathsf{Reg}(\mathcal{F})})$として$n$スケールし、乗算係数が1/2$のベンチマークに対するものである。
一方, (filmus and ward 2014) の手法を用いて, 局所ランダム化を伴う $\epsilon$-greedy 手続きは, より強い $(1-e^{-1})$ に対する $o(n^{2/3} \mathsf{reg}(\mathcal{f})^{1/3})$ の後悔が得られることを示した。
関連論文リスト
- Online Newton Method for Bandit Convex Optimisation [28.66596225688161]
ゼロ階帯域幅の最適化のための計算効率の良いアルゴリズムを提案する。
逆条件では、その後悔は少なくとも$d3.5 sqrtn Mathrmpolylog(n, d)$であり、d$が時間的地平線である確率が高いことを証明している。
設定において、バウンダリは$M d2 sqrtn Mathrmpolylog(n, d)$に改善され、[d-1/2, d-1 / 4]$は$Mとなる。
論文 参考訳(メタデータ) (2024-06-10T17:44:11Z) - High Probability Guarantees for Random Reshuffling [5.663909018247509]
非行列最適化問題に対処するために、ランダムリシャッフル(mathsfRR$)の勾配法を検討する。
本研究ではまず,$mathsfRR$sサンプリング手順におけるニューラルネットワークの複雑さについて検討する。
そこで我々は,乱数化摂動手順の定常点を含むランダムリシャッフル法(mathsfp$mathsfRR$)を設計する。
論文 参考訳(メタデータ) (2023-11-20T15:17:20Z) - Eluder-based Regret for Stochastic Contextual MDPs [43.19667415823089]
文脈マルコフ決定過程(CMDP)における後悔最小化のためのE-UC$3$RLアルゴリズムを提案する。
我々のアルゴリズムは効率的であり(効率的なオフライン回帰オラクルを仮定すると)、$ widetildeO(H3 sqrtT |S| |A|d_mathrmE(mathcalP)$の後悔の保証を享受する。
論文 参考訳(メタデータ) (2022-11-27T20:38:47Z) - Variance-Aware Sparse Linear Bandits [64.70681598741417]
余分な線形包帯に対する最悪のミニマックスは$widetildeThetaleft(sqrtdTright)$である。
ノイズがなく、アクションセットが単位球面である良性設定では、ディビジョン・アンド・コンカーを使用して、$widetildemathcal O(1)$ regretを達成することができる。
我々は,任意の分散対応線形帯域幅アルゴリズムを分散対応線形帯域幅アルゴリズムに変換する汎用フレームワークを開発した。
論文 参考訳(メタデータ) (2022-05-26T15:55:44Z) - Corralling a Larger Band of Bandits: A Case Study on Switching Regret
for Linear Bandits [99.86860277006318]
本稿では,一組の逆アルゴリズムを組み合わせ,学習することの問題点について考察する。
Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。
この問題に触発されて、後悔のオーバーヘッドが百万ドルにしか依存しない大規模バンディットアルゴリズムのバンドを囲む新しいレシピを提案する。
論文 参考訳(メタデータ) (2022-02-12T21:55:44Z) - Improved Regret Bounds for Online Submodular Maximization [10.089520556398575]
我々は、各ステップ$tin[T]$において、固定凸からアクション$x_t$を選択し、コンパクトなドメインセット$mathcalK$を選択するオンライン最適化問題を考える。
ユーティリティ関数 $f_t(cdot)$ が明らかになり、アルゴリズムはペイオフ $f_t(x_t)$ を受け取る。
論文 参考訳(メタデータ) (2021-06-15T02:05:35Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。
learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。
我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。
ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z) - Taking a hint: How to leverage loss predictors in contextual bandits? [63.546913998407405]
我々は,損失予測の助けを借りて,文脈的包帯における学習を研究する。
最適な後悔は$mathcalO(minsqrtT, sqrtmathcalETfrac13)$である。
論文 参考訳(メタデータ) (2020-03-04T07:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。