論文の概要: Optimality of Thompson Sampling with Noninformative Priors for Pareto
Bandits
- arxiv url: http://arxiv.org/abs/2302.01544v1
- Date: Fri, 3 Feb 2023 04:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:23:25.473684
- Title: Optimality of Thompson Sampling with Noninformative Priors for Pareto
Bandits
- Title(参考訳): パレートバンドに対する非インフォーマティブプリエントを用いたトンプソンサンプリングの最適性
- Authors: Jongyeong Lee, Junya Honda, Chao-Kai Chiang, Masashi Sugiyama
- Abstract要約: トンプソンサンプリングは、いくつかの報酬モデルにおいて問題依存の低い境界を達成することが示されている。
重い尾を持つパレートモデルに対するTSの最適性は、2つの未知のパラメータによってパラメータ化される。
ジェフリーズおよび参照先行値を持つTSは、トラルニケート手順を使用すると、下界を達成できる。
- 参考スコア(独自算出の注目度): 81.45853204922795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the stochastic multi-armed bandit problem, a randomized probability
matching policy called Thompson sampling (TS) has shown excellent performance
in various reward models. In addition to the empirical performance, TS has been
shown to achieve asymptotic problem-dependent lower bounds in several models.
However, its optimality has been mainly addressed under light-tailed or
one-parameter models that belong to exponential families. In this paper, we
consider the optimality of TS for the Pareto model that has a heavy tail and is
parameterized by two unknown parameters. Specifically, we discuss the
optimality of TS with probability matching priors that include the Jeffreys
prior and the reference priors. We first prove that TS with certain probability
matching priors can achieve the optimal regret bound. Then, we show the
suboptimality of TS with other priors, including the Jeffreys and the reference
priors. Nevertheless, we find that TS with the Jeffreys and reference priors
can achieve the asymptotic lower bound if one uses a truncation procedure.
These results suggest carefully choosing noninformative priors to avoid
suboptimality and show the effectiveness of truncation procedures in TS-based
policies.
- Abstract(参考訳): 確率的多重武装バンディット問題では、トンプソンサンプリング(TS)と呼ばれるランダムな確率マッチングポリシーが様々な報酬モデルにおいて優れた性能を示した。
経験的性能に加えて、tsはいくつかのモデルにおいて漸近的な問題依存下限を達成することが示されている。
しかし、その最適性は主に指数族に属する光尾モデルや1パラメータモデルの下で対処されてきた。
本稿では,2つの未知パラメータによってパラメータ化される重尾を持つパレートモデルに対するtsの最適性について考察する。
具体的には、jeffreys pre と reference prior を含む確率マッチング pre と ts の最適性について論じる。
まず、ある確率マッチング先を持つTSが最適後悔境界を達成することを証明する。
次に、jeffreys と reference priors を含む他の pre と ts の準最適性を示す。
それにもかかわらず、jeffreys と reference priors の ts は、切断手順を用いると漸近的な下界が得られる。
以上の結果から,非定型的事前選択を慎重に選択し,tsに基づく政策において減算手続きの有効性を示すことが示唆された。
関連論文リスト
- Rényi Neural Processes [14.11793373584558]
本稿では,事前の誤特定の影響を改善するためにR'enyi Neural Processs (RNP)を提案する。
密度比 $fracpq$ は (1-$alpha$) の差分勾配で後方に関してスケールする。
実験の結果,最先端のNPファミリーモデルよりも一貫したログライクな改善が見られた。
論文 参考訳(メタデータ) (2024-05-25T00:14:55Z) - Should We Learn Most Likely Functions or Parameters? [51.133793272222874]
モデルとデータによって示唆される最も可能性の高い関数を直接推定する利点と欠点について検討する。
関数空間MAP推定は, より平坦な最小化, 一般化, オーバーフィッティングの改善につながる可能性がある。
論文 参考訳(メタデータ) (2023-11-27T16:39:55Z) - The Choice of Noninformative Priors for Thompson Sampling in
Multiparameter Bandit Models [56.31310344616837]
トンプソンサンプリング(TS)は、様々な報酬モデルにまたがる理論的な保証によって支持される卓越した経験的性能で知られている。
本研究では,理論的理解の欠如のある新しいモデルを扱う際に,非形式的事前選択がTSの性能に与える影響について考察する。
論文 参考訳(メタデータ) (2023-02-28T08:42:42Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Bayesian Joint Chance Constrained Optimization: Approximations and
Statistical Consistency [10.20554144865699]
近似した後続分布を用いて計算した最適値の統計的整合性の問題に焦点をあてる。
また、近似最適化問題の実現可能性も証明する。
また,M/M/c待ち行列モデルに対する最適スタッフリング問題に対するアプローチの有用性を示す。
論文 参考訳(メタデータ) (2021-06-23T07:11:39Z) - Optimal Posteriors for Chi-squared Divergence based PAC-Bayesian Bounds
and Comparison with KL-divergence based Optimal Posteriors and
Cross-Validation Procedure [0.0]
カイ二乗発散に基づくPACBayesian境界の最適後部について,その分布,計算のスケーラビリティ,テストセットの性能について検討した。
チ二乗発散に基づく後肢は境界が弱く、試験誤差が悪くなるため、KL発散に基づく後肢による基礎的な正規化が示唆される。
論文 参考訳(メタデータ) (2020-08-14T03:15:23Z) - Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討
我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。
この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文 参考訳(メタデータ) (2020-06-11T17:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。