論文の概要: The Choice of Noninformative Priors for Thompson Sampling in
Multiparameter Bandit Models
- arxiv url: http://arxiv.org/abs/2302.14407v2
- Date: Wed, 13 Dec 2023 04:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 21:01:37.181608
- Title: The Choice of Noninformative Priors for Thompson Sampling in
Multiparameter Bandit Models
- Title(参考訳): 多パラメータ帯域モデルにおけるトンプソンサンプリングの非形式的事前選択
- Authors: Jongyeong Lee, Chao-Kai Chiang, Masashi Sugiyama
- Abstract要約: トンプソンサンプリング(TS)は、様々な報酬モデルにまたがる理論的な保証によって支持される卓越した経験的性能で知られている。
本研究では,理論的理解の欠如のある新しいモデルを扱う際に,非形式的事前選択がTSの性能に与える影響について考察する。
- 参考スコア(独自算出の注目度): 56.31310344616837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson sampling (TS) has been known for its outstanding empirical
performance supported by theoretical guarantees across various reward models in
the classical stochastic multi-armed bandit problems. Nonetheless, its
optimality is often restricted to specific priors due to the common observation
that TS is fairly insensitive to the choice of the prior when it comes to
asymptotic regret bounds. However, when the model contains multiple parameters,
the optimality of TS highly depends on the choice of priors, which casts doubt
on the generalizability of previous findings to other models. To address this
gap, this study explores the impact of selecting noninformative priors,
offering insights into the performance of TS when dealing with new models that
lack theoretical understanding. We first extend the regret analysis of TS to
the model of uniform distributions with unknown supports, which would be the
simplest non-regular model. Our findings reveal that changing noninformative
priors can significantly affect the expected regret, aligning with previously
known results in other multiparameter bandit models. Although the uniform prior
is shown to be optimal, we highlight the inherent limitation of its optimality,
which is limited to specific parameterizations and emphasizes the significance
of the invariance property of priors. In light of this limitation, we propose a
slightly modified TS-based policy, called TS with Truncation (TS-T), which can
achieve the asymptotic optimality for the Gaussian models and the uniform
models by using the reference prior and the Jeffreys prior that are invariant
under one-to-one reparameterizations. This policy provides an alternative
approach to achieving optimality by employing fine-tuned truncation, which
would be much easier than hunting for optimal priors in practice.
- Abstract(参考訳): トンプソンサンプリング(ts)は、古典的確率的多腕バンディット問題における様々な報酬モデルに対する理論的な保証によって、優れた経験的性能で知られている。
しかしながら、その最適性はしばしば、TSが漸近的後悔境界に関して前者の選択にかなり敏感であるという共通の観察のために、特定の先行に制限される。
しかし、モデルが複数のパラメータを含む場合、tsの最適性は事前の選択に大きく依存し、他のモデルに対する以前の結果の一般化可能性に疑問を投げかける。
このギャップに対処するために、理論的な理解が欠如した新しいモデルを扱う際に、非形式的事前選択の影響について考察し、TSの性能に関する洞察を提供する。
まず、TSの残念な解析を、未知のサポートを持つ一様分布のモデルに拡張し、これは最も単純な非正規モデルとなる。
以上の結果から,他のマルチパラメータ・バンディットモデルの既知結果と一致して,非形式的先行変化が期待される後悔に大きく影響することが明らかとなった。
均一な前者は最適であることが示されるが、その最適性の本質的な制限は特定のパラメータ化に限られており、前者の不変性の重要性を強調している。
この制限に照らし合わせると、ts with truncation (ts-t) と呼ばれる少し修正された ts-based policy が提案され、これは1対1の再パラメーターの下で不変な基準 pre と jeffreys prior を用いてガウスモデルと一様モデルの漸近的最適性を達成することができる。
この方針は、最適な優先事項を探すよりもずっと容易な、微調整された切り込みを採用することで、最適性を達成するための別のアプローチを提供する。
関連論文リスト
- Continuous Bayesian Model Selection for Multivariate Causal Discovery [22.945274948173182]
現在の因果的発見アプローチは、構造的識別可能性を確保するために、限定的なモデル仮定や介入データへのアクセスを必要とする。
近年の研究では、ベイズモデルの選択はより柔軟な仮定のために制限的モデリングを交換することで精度を大幅に向上させることができることが示されている。
合成データセットと実世界のデータセットの両方において、我々のアプローチの競争力を実証する。
論文 参考訳(メタデータ) (2024-11-15T12:55:05Z) - Rényi Neural Processes [14.11793373584558]
本稿では,事前の誤特定の影響を改善するためにR'enyi Neural Processs (RNP)を提案する。
密度比 $fracpq$ は (1-$alpha$) の差分勾配で後方に関してスケールする。
実験の結果,最先端のNPファミリーモデルよりも一貫したログライクな改善が見られた。
論文 参考訳(メタデータ) (2024-05-25T00:14:55Z) - Should We Learn Most Likely Functions or Parameters? [51.133793272222874]
モデルとデータによって示唆される最も可能性の高い関数を直接推定する利点と欠点について検討する。
関数空間MAP推定は, より平坦な最小化, 一般化, オーバーフィッティングの改善につながる可能性がある。
論文 参考訳(メタデータ) (2023-11-27T16:39:55Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Optimality of Thompson Sampling with Noninformative Priors for Pareto
Bandits [81.45853204922795]
トンプソンサンプリングは、いくつかの報酬モデルにおいて問題依存の低い境界を達成することが示されている。
重い尾を持つパレートモデルに対するTSの最適性は、2つの未知のパラメータによってパラメータ化される。
ジェフリーズおよび参照先行値を持つTSは、トラルニケート手順を使用すると、下界を達成できる。
論文 参考訳(メタデータ) (2023-02-03T04:47:14Z) - On the Effectiveness of Parameter-Efficient Fine-Tuning [79.6302606855302]
現在、多くの研究が、パラメータのごく一部のみを微調整し、異なるタスク間で共有されるパラメータのほとんどを保持することを提案している。
これらの手法は, いずれも細粒度モデルであり, 新たな理論的解析を行う。
我々の理論に根ざした空間性の有効性にもかかわらず、調整可能なパラメータをどう選ぶかという問題はまだ未解決のままである。
論文 参考訳(メタデータ) (2022-11-28T17:41:48Z) - Thompson Sampling for High-Dimensional Sparse Linear Contextual Bandits [17.11922027966447]
この研究は、高次元およびスパースな文脈的包帯におけるトンプソンサンプリングの理論的な保証を提供する。
より高速な計算のために、MCMCの代わりに未知のパラメータと変分推論をモデル化するために、スパイク・アンド・スラブを用いる。
論文 参考訳(メタデータ) (2022-11-11T02:23:39Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - AdaTerm: Adaptive T-Distribution Estimated Robust Moments for
Noise-Robust Stochastic Gradient Optimization [14.531550983885772]
本稿では,学生のt分布を取り入れた新しいアプローチであるAdaTermを提案する。
これは最適化プロセスの統一的な処理を提供し、初めてt分布の統計モデルの下で包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-01-18T03:13:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。