論文の概要: Tangential Randomization in Linear Bandits (TRAiL): Guaranteed Inference and Regret Bounds
- arxiv url: http://arxiv.org/abs/2411.12154v1
- Date: Tue, 19 Nov 2024 01:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:34.921716
- Title: Tangential Randomization in Linear Bandits (TRAiL): Guaranteed Inference and Regret Bounds
- Title(参考訳): 直線帯域(TRAiL):保証推論とレグレト境界
- Authors: Arda Güçlü, Subhonmesh Bose,
- Abstract要約: 本稿では,線形帯域探索アルゴリズムTRAiLの提案と解析を行う。
我々は,期待された後悔に対して,任意のアルゴリズムに対して$Omega(sqrtT)$ minimax小境界を特徴付ける。
- 参考スコア(独自算出の注目度): 1.03590082373586
- License:
- Abstract: We propose and analyze TRAiL (Tangential Randomization in Linear Bandits), a computationally efficient regret-optimal forced exploration algorithm for linear bandits on action sets that are sublevel sets of strongly convex functions. TRAiL estimates the governing parameter of the linear bandit problem through a standard regularized least squares and perturbs the reward-maximizing action corresponding to said point estimate along the tangent plane of the convex compact action set before projecting back to it. Exploiting concentration results for matrix martingales, we prove that TRAiL ensures a $\Omega(\sqrt{T})$ growth in the inference quality, measured via the minimum eigenvalue of the design (regressor) matrix with high-probability over a $T$-length period. We build on this result to obtain an $\mathcal{O}(\sqrt{T} \log(T))$ upper bound on cumulative regret with probability at least $ 1 - 1/T$ over $T$ periods, and compare TRAiL to other popular algorithms for linear bandits. Then, we characterize an $\Omega(\sqrt{T})$ minimax lower bound for any algorithm on the expected regret that covers a wide variety of action/parameter sets and noise processes. Our analysis not only expands the realm of lower-bounds in linear bandits significantly, but as a byproduct, yields a trade-off between regret and inference quality. Specifically, we prove that any algorithm with an $\mathcal{O}(T^\alpha)$ expected regret growth must have an $\Omega(T^{1-\alpha})$ asymptotic growth in expected inference quality. Our experiments on the $L^p$ unit ball as action sets reveal how this relation can be violated, but only in the short-run, before returning to respect the bound asymptotically. In effect, regret-minimizing algorithms must have just the right rate of inference -- too fast or too slow inference will incur sub-optimal regret growth.
- Abstract(参考訳): 線形包絡関数のサブレベル集合である作用集合上の線形包帯に対する計算効率の良い後悔-最適探索アルゴリズムであるTRAiL(Tangential Randomization in Linear Bandits)を提案し,解析する。
行列マーチングラーの発散濃度は, TRAiLが$\Omega(\sqrt{T})$の推論品質を, 設計(回帰器)行列の最小固有値を用いて, 高確率でT$長周期で測定できることを証明した。
この結果に基づいて、$\mathcal{O}(\sqrt{T} \log(T))$ up bound on cumulative regret with probability at least $ 1 - 1/T$ over $T$ periods, and compare TRAiL to other popular algorithm for linear bandits。
次に、様々なアクション/パラメータセットとノイズプロセスをカバーする期待された後悔について、任意のアルゴリズムに対して$\Omega(\sqrt{T})$ minimax小境界を特徴づける。
- p-Mean Regret for Stochastic Bandits [52.828710025519996]
単純で統一された UCB ベースのアルゴリズムを導入し、新しい$p$-mean の後悔境界を実現する。
論文 参考訳(メタデータ) (2024-12-14T08:38:26Z) - Linear bandits with polylogarithmic minimax regret [8.97780713904412]
論文 参考訳(メタデータ) (2024-02-19T10:56:47Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Efficient Frameworks for Generalized Low-Rank Matrix Bandit Problems [61.85150061213987]
一般化線形モデル (GLM) フレームワークを用いて, citelu2021low で提案した一般化低ランク行列帯域問題について検討する。
G-ESTT は $tildeO(sqrt(d_1+d_2)3/2Mr3/2T)$ bound of regret を達成でき、G-ESTS は $tildeO を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-14T14:14:19Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Exploration in Linear Bandits with Rich Action Sets and its Implications
for Inference [23.364534479492715]
本研究は, 線形帯域におけるEmphmodel selectionとEmphclusteringの2つの実践シナリオに適用する。
論文 参考訳(メタデータ) (2022-07-23T20:25:07Z) - Nearly Minimax Algorithms for Linear Bandits with Shared Representation [86.79657561369397]
我々は、次元が$d$で、それぞれ$T$のラウンドで$M$リニアバンディットをプレイする設定を考え、これらの$M$リニアバンディットタスクは共通の$k(ll d)$次元リニア表現を共有する。
我々は$widetildeOleft(dsqrtkMT + kMsqrtTright)$ regret boundsを達成する新しいアルゴリズムを考案した。
論文 参考訳(メタデータ) (2022-03-29T15:27:13Z) - Almost Optimal Batch-Regret Tradeoff for Batch Linear Contextual Bandits [45.43968161616453]
また, 動的上界に依存した新しい行列不等式濃度を証明した。
論文 参考訳(メタデータ) (2021-10-15T12:32:33Z) - Regret Lower Bound and Optimal Algorithm for High-Dimensional Contextual
Linear Bandit [10.604939762790517]
我々は、累積後悔に対して、$mathcalObig((log d)fracalpha+12Tfrac1-alpha2+log Tbig)$をミニマックス下界として証明する。
論文 参考訳(メタデータ) (2021-09-23T19:35:38Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)