論文の概要: Batched Lipschitz Bandits
- arxiv url: http://arxiv.org/abs/2110.09722v1
- Date: Tue, 19 Oct 2021 03:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 14:44:54.137403
- Title: Batched Lipschitz Bandits
- Title(参考訳): バッチリプシッツバンド
- Authors: Yasong Feng, Zengfeng Huang, Tianyu Wang
- Abstract要約: バッチ化されたフィードバック設定に自然に適合する、Batched Lipschitz Narrowing (BLiN)と呼ばれる新しいランドスケープ認識アルゴリズムを導入する。
リプシッツのズーム次元が$d_z$であるような$T$ステップ問題に対して、理論的には、このアルゴリズムは、$ widetildemathcalOの最適後悔率を理論的に達成する。
- 参考スコア(独自算出の注目度): 21.38835940776583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the batched Lipschitz bandit problem, where the
expected reward is Lipschitz and the reward observations are collected in
batches. We introduce a novel landscape-aware algorithm, called Batched
Lipschitz Narrowing (BLiN), that naturally fits into the batched feedback
setting. In particular, we show that for a $T$-step problem with Lipschitz
reward of zooming dimension $d_z$, our algorithm achieves theoretically optimal
regret rate of $ \widetilde{\mathcal{O}} \left( T^{\frac{d_z + 1}{d_z + 2}}
\right) $ using only $ \mathcal{O} \left( \frac{\log T}{d_z} \right) $ batches.
For the lower bound, we show that in an environment with $B$-batches, for any
policy $\pi$, there exists a problem instance such that the expected regret is
lower bounded by $ \widetilde{\Omega}
\left(R_z(T)^\frac{1}{1-\left(\frac{1}{d+2}\right)^B}\right) $, where $R_z (T)$
is the regret lower bound for vanilla Lipschitz bandits that depends on the
zooming dimension $d_z$, and $d$ is the dimension of the arm space.
- Abstract(参考訳): 本稿では,リプシッツの報奨が期待され,報奨観測がバッチで収集されるバッチ化リプシッツバンディット問題について検討する。
バッチ化されたフィードバック設定に自然に適合する、Batched Lipschitz Narrowing (BLiN)と呼ばれる新しいランドスケープ認識アルゴリズムを導入する。
特に、ズーム次元 $d_z$ のリプシッツ報酬を持つ$t$ステップ問題に対して、このアルゴリズムは、$ \mathcal{o} \left(t^{\frac{d_z + 1}{d_z + 2}} \right) $ ( \mathcal{o} \left( \frac{\log t}{d_z} \right) $バッチのみを使用して理論的に最適の後悔率を達成する。
B$-バッチを持つ環境において、任意のポリシーに対して$\pi$に対して、期待される後悔が$ \widetilde{\Omega} \left(R_z(T)^\frac{1}{1-\left(\frac{1}{d+2}\right)^B}\right) $, $R_z(T)$はズームする次元の$d_z$に依存するバニラ・リプシッツ包帯の後悔の低い境界であり、$d$はアーム空間の次元であるような問題ケースが存在する。
関連論文リスト
- Batched Stochastic Bandit for Nondegenerate Functions [8.015503209312786]
本稿では,非退化関数に対するバッチ帯域学習問題について検討する。
本稿では,非退化関数に対するバッチバンドイット問題をほぼ最適に解くアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-09T12:50:16Z) - LC-Tsallis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits [38.41164102066483]
本研究では、独立かつ同一に分散したコンテキストを持つ線形文脈帯域問題について考察する。
提案アルゴリズムは、Tsallisエントロピーを持つFollow-The-Regularized-Leaderに基づいており、$alpha$-textual-Con (LC)-Tsallis-INFと呼ばれている。
論文 参考訳(メタデータ) (2024-03-05T18:59:47Z) - Provably Efficient High-Dimensional Bandit Learning with Batched
Feedbacks [93.00280593719513]
本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。
具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。
我々のアルゴリズムは,$mathcalO( log T)$ バッチで完全に逐次的に設定されたものに匹敵する後悔の限界を達成している。
論文 参考訳(メタデータ) (2023-11-22T06:06:54Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - The First Optimal Algorithm for Smooth and
Strongly-Convex-Strongly-Concave Minimax Optimization [88.91190483500932]
本稿では,スムーズで強靭なミニマックス最適化問題を再考する。
既存の最先端メソッドは、下限の$Omegaleft(sqrtkappa_xkappa_ylog3 (kappa_xkappa_y)logfrac1epsilonright)$にマッチしない。
我々は、$mathcalOleft( sqrtkappa_xkappa_ylog)で最初のアルゴリズムを提供することで、この根本的な問題を解決する。
論文 参考訳(メタデータ) (2022-05-11T17:33:07Z) - Almost Optimal Batch-Regret Tradeoff for Batch Linear Contextual Bandits [45.43968161616453]
バッチ線形文脈帯域に対する最適バッチ-regretトレードオフについて検討する。
時間的地平線が成長するにつれて2相表現を特徴とする後悔の保証を証明します。
また, 動的上界に依存した新しい行列不等式濃度を証明した。
論文 参考訳(メタデータ) (2021-10-15T12:32:33Z) - Gaussian Process Bandit Optimization with Few Batches [49.896920704012395]
有限腕バンディットアルゴリズムにインスパイアされたバッチアルゴリズムを導入する。
O(log T)$ batches in time horizon $T$.sqrtTgamma_T)$ using $O(log T)$ batches in time horizon。
さらに,アルゴリズムの修正版を提案し,バッチ数によって後悔がどう影響するかを特徴付ける。
論文 参考訳(メタデータ) (2021-10-15T00:54:04Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。
learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。
我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。
ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z) - Instance-Dependent Bounds for Zeroth-order Lipschitz Optimization with
Error Certificates [0.0]
コンパクト部分集合 $mathcal X$ of $mathbb Rd$ 上で定義されるリプシッツ関数 $f$ のゼロ次(ブラックボックス)最適化の問題を研究する。
我々は、任意のリプシッツ関数 $f$ の評価の最適な個数を特徴付け、精度$varepsilon$ で$f$ の近似器を見つけて証明する。
論文 参考訳(メタデータ) (2021-02-03T09:51:03Z) - Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits
with Linear Payoff Functions [53.77572276969548]
我々は、C$2$UCBアルゴリズムが分割マトロイド制約に対して最適な後悔結合$tildeO(dsqrtkT + dk)$を有することを示した。
一般的な制約に対して,C$2$UCBアルゴリズムで腕の報酬推定値を変更するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-20T04:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。