論文の概要: Doubly Robust Thompson Sampling for linear payoffs
- arxiv url: http://arxiv.org/abs/2102.01229v1
- Date: Mon, 1 Feb 2021 23:31:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:33:05.873808
- Title: Doubly Robust Thompson Sampling for linear payoffs
- Title(参考訳): 線形ペイオフのための二重ロバストトンプソンサンプリング
- Authors: Wonyoung Kim, Gi-soo Kim, Myunghee Cho Paik
- Abstract要約: 我々は、Douubly Robust (DR) Thompson Sampling (TS) と呼ばれる新しいマルチアームコンテキスト帯域幅アルゴリズムを提案する。
提案したアルゴリズムは、コンテキストの次元が$d$である場合、$sqrtd$の係数でTSのバウンダリを改善する。
提案手法の利点は、選択されるか選択されないかの全てのコンテキストデータを使用し、不飽和武器の技術的定義を回避できることである。
- 参考スコア(独自算出の注目度): 14.70672236127518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A challenging aspect of the bandit problem is that a stochastic reward is
observed only for the chosen arm and the rewards of other arms remain missing.
Since the arm choice depends on the past context and reward pairs, the contexts
of chosen arms suffer from correlation and render the analysis difficult. We
propose a novel multi-armed contextual bandit algorithm called Doubly Robust
(DR) Thompson Sampling (TS) that applies the DR technique used in missing data
literature to TS. The proposed algorithm improves the bound of TS by a factor
of $\sqrt{d}$, where $d$ is the dimension of the context. A benefit of the
proposed method is that it uses all the context data, chosen or not chosen,
thus allowing to circumvent the technical definition of unsaturated arms used
in theoretical analysis of TS. Empirical studies show the advantage of the
proposed algorithm over TS.
- Abstract(参考訳): バンドイット問題における挑戦的な側面は、選択された腕のみに確率的な報酬が観察され、他の腕の報酬が失われることである。
アームの選択は過去のコンテキストと報酬ペアに依存するため、選択されたアームのコンテキストは相関に苦しめられ、分析が困難になる。
本論文では,データ文献の欠落に用いるDR手法をTSに応用した,Dubly Robust (DR) Thompson Sampling (TS) という新しいマルチアームコンテキストバンディットアルゴリズムを提案する。
提案されたアルゴリズムは、$d$ が文脈の次元である$\sqrt{d}$ の係数によって ts の境界を改善する。
提案手法の利点は,ts の理論的解析に使用される不飽和アームの技術的定義を回避できるため,選択または選択しないすべてのコンテキストデータを使用することである。
経験的研究はTSよりも提案されたアルゴリズムの利点を示す。
関連論文リスト
- First- and Second-Order Bounds for Adversarial Linear Contextual Bandits [22.367921675238318]
我々は,K$の腕に付随する損失関数を制限なく時間とともに変化させることができる,逆線形文脈帯域設定を考える。
V_T$ または $L_T*$ は$T$ よりもかなり小さい可能性があるため、環境が比較的良心的であれば、最悪の場合の後悔よりも改善される。
論文 参考訳(メタデータ) (2023-05-01T14:00:15Z) - On the Interplay Between Misspecification and Sub-optimality Gap in
Linear Contextual Bandits [76.2262680277608]
本研究では,線形関数クラスによって期待される報酬関数を近似できるような,不特定条件下での線形文脈帯域について検討する。
このアルゴリズムは, 対数的因子に比例した設定において, ギャップ依存の残差が$tilde O (d2/Delta)$と同じであることを示す。
論文 参考訳(メタデータ) (2023-03-16T15:24:29Z) - Double Doubly Robust Thompson Sampling for Generalized Linear Contextual
Bandits [8.508198765617198]
一般化線形報酬に$tildeO(sqrtkappa-1 phi T)$ regret over $T$ roundsを提案する。
また、確率的マージン条件下では、$O(kappa-1 phi log (NT) log T)$ regret bound for $N$ arms も提供する。
論文 参考訳(メタデータ) (2022-09-15T00:20:38Z) - Squeeze All: Novel Estimator and Self-Normalized Bound for Linear
Contextual Bandits [18.971564419292893]
我々は、$O(sqrtdTlog T)$ regret boundで、$d$は文脈の次元、$T$は時間地平線であるような線形文脈的帯域幅アルゴリズムを提案する。
提案アルゴリズムは,探索を明示的ランダム化により埋め込んだ新しい推定器を備える。
論文 参考訳(メタデータ) (2022-06-11T02:43:17Z) - Breaking the $\sqrt{T}$ Barrier: Instance-Independent Logarithmic Regret
in Stochastic Contextual Linear Bandits [10.127456032874978]
線形ペイオフを伴う文脈的包帯に対する対数的後悔(多元的後悔)を証明した。
コンテキストは、$sqrtT$から$polylog(T)$への後悔を減らすのに役立ちます。
論文 参考訳(メタデータ) (2022-05-19T23:41:46Z) - Stochastic Contextual Dueling Bandits under Linear Stochastic
Transitivity Models [25.336599480692122]
我々は,コンテキスト情報を用いた決闘バンディット問題における後悔の最小化タスクについて検討する。
本稿では,フィードバックプロセスの模倣に基づく計算効率のよいアルゴリズムである$texttCoLSTIM$を提案する。
本実験は,CoLSTモデルの特殊事例に対する最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-09T17:44:19Z) - Thresholded Lasso Bandit [70.17389393497125]
Thresholded Lasso banditは、報酬関数を定義するベクトルとスパースサポートを推定するアルゴリズムである。
一般には $mathcalO( log d + sqrtT )$ や $mathcalO( log d + sqrtT )$ としてスケールする非漸近的後悔の上界を確立する。
論文 参考訳(メタデータ) (2020-10-22T19:14:37Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Taking a hint: How to leverage loss predictors in contextual bandits? [63.546913998407405]
我々は,損失予測の助けを借りて,文脈的包帯における学習を研究する。
最適な後悔は$mathcalO(minsqrtT, sqrtmathcalETfrac13)$である。
論文 参考訳(メタデータ) (2020-03-04T07:36:38Z) - Naive Exploration is Optimal for Online LQR [56.12283443161479]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。