論文の概要: Nearly Optimal Regret for Stochastic Linear Bandits with Heavy-Tailed
Payoffs
- arxiv url: http://arxiv.org/abs/2004.13465v1
- Date: Tue, 28 Apr 2020 13:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:25:51.836873
- Title: Nearly Optimal Regret for Stochastic Linear Bandits with Heavy-Tailed
Payoffs
- Title(参考訳): 重り付きペイオフを有する確率線形帯域のほぼ最適レグレット
- Authors: Bo Xue, Guanghui Wang, Yimu Wang and Lijun Zhang
- Abstract要約: 我々は、リニアバンディットをヘビーテールのペイオフで分析し、そこではペイオフは1+epsilon$のモーメントしか持たない。
本稿では,$widetildeO(dfrac12Tfrac11+epsilon)$のサブ線形後悔境界を満足する2つの新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 35.988644745703645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of stochastic linear bandits with finite
action sets. Most of existing work assume the payoffs are bounded or
sub-Gaussian, which may be violated in some scenarios such as financial
markets. To settle this issue, we analyze the linear bandits with heavy-tailed
payoffs, where the payoffs admit finite $1+\epsilon$ moments for some
$\epsilon\in(0,1]$. Through median of means and dynamic truncation, we propose
two novel algorithms which enjoy a sublinear regret bound of
$\widetilde{O}(d^{\frac{1}{2}}T^{\frac{1}{1+\epsilon}})$, where $d$ is the
dimension of contextual information and $T$ is the time horizon. Meanwhile, we
provide an $\Omega(d^{\frac{\epsilon}{1+\epsilon}}T^{\frac{1}{1+\epsilon}})$
lower bound, which implies our upper bound matches the lower bound up to
polylogarithmic factors in the order of $d$ and $T$ when $\epsilon=1$. Finally,
we conduct numerical experiments to demonstrate the effectiveness of our
algorithms and the empirical results strongly support our theoretical
guarantees.
- Abstract(参考訳): 本稿では,有限作用集合を持つ確率線形バンディットの問題について考察する。
既存の仕事のほとんどは、支払いは境界付きまたは準ゲージであり、金融市場のようないくつかのシナリオで違反する可能性があると仮定している。
この問題を解決するために、線形帯域幅を重み付きペイオフで解析し、そこでは、ある$\epsilon\in(0,1]$に対して有限の1+\epsilon$モーメントを認める。
平均の中央値と動的切り離しの中央値を通して、$\widetilde{O}(d^{\frac{1}{2}}T^{\frac{1}{1+\epsilon}})$のサブ線形後悔境界を楽しむ2つの新しいアルゴリズムを提案し、$d$は文脈情報の次元であり、$T$は時間水平線である。
一方、我々は$\Omega(d^{\frac{\epsilon}{1+\epsilon}}T^{\frac{1}{1+\epsilon}})$low boundを提供し、これは、$\epsilon=1$のときの$d$と$T$の順に、下界のポリ対数因子に一致することを意味する。
最後に, アルゴリズムの有効性を実証するために数値実験を行い, 実験結果が理論的な保証を強く支持することを示した。
関連論文リスト
- Tangential Randomization in Linear Bandits (TRAiL): Guaranteed Inference and Regret Bounds [1.03590082373586]
本稿では,線形帯域探索アルゴリズムTRAiLの提案と解析を行う。
TraiLは、設計(回帰器)行列の最小固有値によって測定された推論品質の$Omega(sqrtT)$成長を保証する。
我々は,期待された後悔に対して,任意のアルゴリズムに対して$Omega(sqrtT)$ minimax小境界を特徴付ける。
論文 参考訳(メタデータ) (2024-11-19T01:08:13Z) - Fast Rates for Bandit PAC Multiclass Classification [73.17969992976501]
我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。
我々の主な貢献は、問題の無知な$(varepsilon,delta)$PACバージョンのための新しい学習アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2024-06-18T08:54:04Z) - Federated Linear Bandits with Finite Adversarial Actions [20.1041278044797]
我々は、M$のクライアントが中央サーバと通信し、線形文脈の帯域幅問題を解決するための連合線形帯域幅モデルについて検討する。
逆有限作用集合のユニークな問題に対処するため、FedSupLinUCBアルゴリズムを提案する。
我々は、FedSupLinUCBが$tildeO(sqrtd T)$の完全後悔を達成したことを証明している。
論文 参考訳(メタデータ) (2023-11-02T03:41:58Z) - Efficient Algorithms for Generalized Linear Bandits with Heavy-tailed
Rewards [40.99322897009357]
トランケーションと平均中央値に基づく2つの新しいアルゴリズムを提案する。
我々のトラニケーションベースのアルゴリズムは、既存のトラニケーションベースのアプローチと区別して、オンライン学習をサポートする。
我々のアルゴリズムは,$epsilon=1$の既存アルゴリズムと比較して,対数係数による後悔境界を改善する。
論文 参考訳(メタデータ) (2023-10-28T13:01:10Z) - First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。
V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文 参考訳(メタデータ) (2023-05-01T14:00:15Z) - Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。
グラフの構造は知られており、ノードは$N$である。
頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T16:21:31Z) - Variance-Aware Sparse Linear Bandits [64.70681598741417]
余分な線形包帯に対する最悪のミニマックスは$widetildeThetaleft(sqrtdTright)$である。
ノイズがなく、アクションセットが単位球面である良性設定では、ディビジョン・アンド・コンカーを使用して、$widetildemathcal O(1)$ regretを達成することができる。
我々は,任意の分散対応線形帯域幅アルゴリズムを分散対応線形帯域幅アルゴリズムに変換する汎用フレームワークを開発した。
論文 参考訳(メタデータ) (2022-05-26T15:55:44Z) - On Submodular Contextual Bandits [92.45432756301231]
作用が基底集合の部分集合であり、平均報酬が未知の単調部分モジュラ函数によってモデル化されるような文脈的包帯の問題を考える。
Inverse Gap Weighting 戦略により,提案アルゴリズムは推定関数の局所的最適度を効率よくランダム化することを示す。
論文 参考訳(メタデータ) (2021-12-03T21:42:33Z) - Near-Optimal SQ Lower Bounds for Agnostically Learning Halfspaces and
ReLUs under Gaussian Marginals [49.60752558064027]
ガウス境界の下では、半空間とReLUを不可知的に学習する基本的な問題について検討する。
我々の下限は、これらのタスクの現在の上限が本質的に最良のものであるという強い証拠を与える。
論文 参考訳(メタデータ) (2020-06-29T17:10:10Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。