論文の概要: Pessimism for Offline Linear Contextual Bandits using $\ell_p$
Confidence Sets
- arxiv url: http://arxiv.org/abs/2205.10671v1
- Date: Sat, 21 May 2022 20:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 16:03:58.352022
- Title: Pessimism for Offline Linear Contextual Bandits using $\ell_p$
Confidence Sets
- Title(参考訳): $\ell_p$ Confidence Sets を用いたオフライン線形コンテキスト帯域のペシミズム
- Authors: Gene Li, Cong Ma, Nathan Srebro
- Abstract要約: 線形文脈帯域のオフライン学習のための悲観的学習ルールの1ドル当たりの$hatpi_pgeを提示する。
我々は,新しい$hatpi_infty$学習規則が,すべての$ell_q$制約された問題に対して,最小値のパフォーマンス(ログファクタまで)を達成するため,適応的に最適であることを示す。
- 参考スコア(独自算出の注目度): 32.462522880473934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a family $\{\hat{\pi}\}_{p\ge 1}$ of pessimistic learning rules
for offline learning of linear contextual bandits, relying on confidence sets
with respect to different $\ell_p$ norms, where $\hat{\pi}_2$ corresponds to
Bellman-consistent pessimism (BCP), while $\hat{\pi}_\infty$ is a novel
generalization of lower confidence bound (LCB) to the linear setting. We show
that the novel $\hat{\pi}_\infty$ learning rule is, in a sense, adaptively
optimal, as it achieves the minimax performance (up to log factors) against all
$\ell_q$-constrained problems, and as such it strictly dominates all other
predictors in the family, including $\hat{\pi}_2$.
- Abstract(参考訳): 線形文脈的包帯のオフライン学習のための悲観的学習規則の$$\{\hat{\pi}\}_{p\ge 1}$は、異なる$\ell_p$ノルムに対する信頼セットに依存し、$\hat{\pi}_2$はベルマン一貫性悲観主義(BCP)に対応し、$\hat{\pi}_\infty$は線形設定に対する低信頼境界(LCB)の新しい一般化である。
新たな$\hat{\pi}_\infty$学習規則は、ある意味では、すべての$\ell_q$制約された問題に対してミニマックス性能(ログファクタまで)を達成するため、適応的に最適であることを示し、$\hat{\pi}_2$を含む家族内の他の全ての予測因子を厳密に支配している。
関連論文リスト
- Linear $Q$-Learning Does Not Diverge: Convergence Rates to a Bounded Set [34.129520133741124]
本稿では、線形$Q$学習の最初の$L2$収束率を有界集合に設定する。
必要なのは、適応温度の$epsilon$-softmaxの行動ポリシーだけです。
論文 参考訳(メタデータ) (2025-01-31T16:10:50Z) - First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。
V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文 参考訳(メタデータ) (2023-05-01T14:00:15Z) - Does Sparsity Help in Learning Misspecified Linear Bandits? [32.920577630673804]
アルゴリズムは$O(varepsilon-sds)$アクションをクエリすることで、$O(varepsilon)$-optimalアクションを得ることができることを示す。
また、サンプルの複雑さに対する上限は、エラーが$O(sdeltavarepsilon)$$$0delta1$を要求する場合、ほぼ厳密であることを示す。
論文 参考訳(メタデータ) (2023-03-29T19:58:39Z) - Smooth Non-Stationary Bandits [49.19728527803684]
本研究では、各アームの平均報酬シーケンスを$beta$-H"older関数に埋め込むことができる非定常包帯問題について検討する。
スムース(つまり$betage 2$)と非スムース(つまり$beta=1$)との最初の分離は、$tilde O(k4/5 T3/5)$ regret on any $k$-armed, $2-H"older instanceでポリシーを提示することで示します。
論文 参考訳(メタデータ) (2023-01-29T06:03:20Z) - Corralling a Larger Band of Bandits: A Case Study on Switching Regret
for Linear Bandits [99.86860277006318]
本稿では,一組の逆アルゴリズムを組み合わせ,学習することの問題点について考察する。
Agarwal et al. の CORRAL はこの目標を、$widetildeO(sqrtd S T)$ の残酷なオーバーヘッドで達成している。
この問題に触発されて、後悔のオーバーヘッドが百万ドルにしか依存しない大規模バンディットアルゴリズムのバンドを囲む新しいレシピを提案する。
論文 参考訳(メタデータ) (2022-02-12T21:55:44Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。
learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。
我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。
ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z) - Impact of Representation Learning in Linear Bandits [83.17684841392754]
本研究では,表現学習が帯域幅問題の効率性を向上させる方法について検討する。
我々は,$widetildeO(TsqrtkN + sqrtdkNT)$ regretを達成する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-13T16:35:30Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Nearly Optimal Regret for Stochastic Linear Bandits with Heavy-Tailed
Payoffs [35.988644745703645]
我々は、リニアバンディットをヘビーテールのペイオフで分析し、そこではペイオフは1+epsilon$のモーメントしか持たない。
本稿では,$widetildeO(dfrac12Tfrac11+epsilon)$のサブ線形後悔境界を満足する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-28T13:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。