論文の概要: Lipschitz Bandits with Batched Feedback
- arxiv url: http://arxiv.org/abs/2110.09722v6
- Date: Mon, 30 Oct 2023 14:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 05:07:36.788843
- Title: Lipschitz Bandits with Batched Feedback
- Title(参考訳): lipschitzバンドにバッチフィードバック
- Authors: Yasong Feng, Zengfeng Huang, Tianyu Wang
- Abstract要約: 本稿では,この問題を最適に解くために,Batched Lipschitz Narrowing (BLiN)と呼ばれる新しいランドスケープ認識アルゴリズムを提案する。
我々の理論的下限は、最適な後悔を達成するためには、任意のアルゴリズムに$Omega(log T)$バッチが必要であることを意味する。
- 参考スコア(独自算出の注目度): 24.605942770966973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study Lipschitz bandit problems with batched feedback,
where the expected reward is Lipschitz and the reward observations are
communicated to the player in batches. We introduce a novel landscape-aware
algorithm, called Batched Lipschitz Narrowing (BLiN), that optimally solves
this problem. Specifically, we show that for a $T$-step problem with Lipschitz
reward of zooming dimension $d_z$, our algorithm achieves theoretically optimal
(up to logarithmic factors) regret rate
$\widetilde{\mathcal{O}}\left(T^{\frac{d_z+1}{d_z+2}}\right)$ using only $
\mathcal{O} \left( \log\log T\right) $ batches. We also provide complexity
analysis for this problem. Our theoretical lower bound implies that
$\Omega(\log\log T)$ batches are necessary for any algorithm to achieve the
optimal regret. Thus, BLiN achieves optimal regret rate (up to logarithmic
factors) using minimal communication.
- Abstract(参考訳): 本稿では,バッチフィードバックによるリプシッツのバンドイット問題について検討し,期待される報酬はリプシッツであり,報奨観測はバッチでプレイヤーに伝達される。
本稿では,この問題を最適に解くために,Batched Lipschitz Narrowing (BLiN)と呼ばれる新しいランドスケープ認識アルゴリズムを提案する。
具体的には、リプシッツのズーム次元が$d_z$の報酬を持つ$T$-step問題に対して、我々のアルゴリズムは、$ \mathcal{O} \left( \log\log T\right) $ batchesのみを用いて理論的に最適(対数的因子まで)の後悔率$\widetilde{\mathcal{O}}\left(T^{\frac{d_z+1}{d_z+2}}\right)$を達成する。
この問題に対する複雑性分析も提供する。
理論上の下限は、任意のアルゴリズムが最適な後悔を達成するためには、$\omega(\log\log t)$ バッチが必要であることを意味する。
したがって、BLiNは最小限の通信を用いて最適な後悔率(対数係数まで)を達成する。
関連論文リスト
- Batched Stochastic Bandit for Nondegenerate Functions [8.015503209312786]
本稿では,非退化関数に対するバッチ帯域学習問題について検討する。
本稿では,非退化関数に対するバッチバンドイット問題をほぼ最適に解くアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-09T12:50:16Z) - LC-Tsallis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits [38.41164102066483]
本研究では、独立かつ同一に分散したコンテキストを持つ線形文脈帯域問題について考察する。
提案アルゴリズムは、Tsallisエントロピーを持つFollow-The-Regularized-Leaderに基づいており、$alpha$-textual-Con (LC)-Tsallis-INFと呼ばれている。
論文 参考訳(メタデータ) (2024-03-05T18:59:47Z) - Provably Efficient High-Dimensional Bandit Learning with Batched
Feedbacks [93.00280593719513]
本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。
具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。
我々のアルゴリズムは,$mathcalO( log T)$ バッチで完全に逐次的に設定されたものに匹敵する後悔の限界を達成している。
論文 参考訳(メタデータ) (2023-11-22T06:06:54Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - The First Optimal Algorithm for Smooth and
Strongly-Convex-Strongly-Concave Minimax Optimization [88.91190483500932]
本稿では,スムーズで強靭なミニマックス最適化問題を再考する。
既存の最先端メソッドは、下限の$Omegaleft(sqrtkappa_xkappa_ylog3 (kappa_xkappa_y)logfrac1epsilonright)$にマッチしない。
我々は、$mathcalOleft( sqrtkappa_xkappa_ylog)で最初のアルゴリズムを提供することで、この根本的な問題を解決する。
論文 参考訳(メタデータ) (2022-05-11T17:33:07Z) - Almost Optimal Batch-Regret Tradeoff for Batch Linear Contextual Bandits [45.43968161616453]
バッチ線形文脈帯域に対する最適バッチ-regretトレードオフについて検討する。
時間的地平線が成長するにつれて2相表現を特徴とする後悔の保証を証明します。
また, 動的上界に依存した新しい行列不等式濃度を証明した。
論文 参考訳(メタデータ) (2021-10-15T12:32:33Z) - Gaussian Process Bandit Optimization with Few Batches [49.896920704012395]
有限腕バンディットアルゴリズムにインスパイアされたバッチアルゴリズムを導入する。
O(log T)$ batches in time horizon $T$.sqrtTgamma_T)$ using $O(log T)$ batches in time horizon。
さらに,アルゴリズムの修正版を提案し,バッチ数によって後悔がどう影響するかを特徴付ける。
論文 参考訳(メタデータ) (2021-10-15T00:54:04Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。
learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。
我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。
ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z) - Instance-Dependent Bounds for Zeroth-order Lipschitz Optimization with
Error Certificates [0.0]
コンパクト部分集合 $mathcal X$ of $mathbb Rd$ 上で定義されるリプシッツ関数 $f$ のゼロ次(ブラックボックス)最適化の問題を研究する。
我々は、任意のリプシッツ関数 $f$ の評価の最適な個数を特徴付け、精度$varepsilon$ で$f$ の近似器を見つけて証明する。
論文 参考訳(メタデータ) (2021-02-03T09:51:03Z) - Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits
with Linear Payoff Functions [53.77572276969548]
我々は、C$2$UCBアルゴリズムが分割マトロイド制約に対して最適な後悔結合$tildeO(dsqrtkT + dk)$を有することを示した。
一般的な制約に対して,C$2$UCBアルゴリズムで腕の報酬推定値を変更するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-20T04:29:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。