論文の概要: Bayesian decision-making under misspecified priors with applications to
meta-learning
- arxiv url: http://arxiv.org/abs/2107.01509v1
- Date: Sat, 3 Jul 2021 23:17:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:08:57.007099
- Title: Bayesian decision-making under misspecified priors with applications to
meta-learning
- Title(参考訳): 不特定事前のベイズ的意思決定とメタラーニングへの応用
- Authors: Max Simchowitz, Christopher Tosh, Akshay Krishnamurthy, Daniel Hsu,
Thodoris Lykouris, Miroslav Dud\'ik, Robert E. Schapire
- Abstract要約: トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
- 参考スコア(独自算出の注目度): 64.38020203019013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson sampling and other Bayesian sequential decision-making algorithms
are among the most popular approaches to tackle explore/exploit trade-offs in
(contextual) bandits. The choice of prior in these algorithms offers
flexibility to encode domain knowledge but can also lead to poor performance
when misspecified. In this paper, we demonstrate that performance degrades
gracefully with misspecification. We prove that the expected reward accrued by
Thompson sampling (TS) with a misspecified prior differs by at most
$\tilde{\mathcal{O}}(H^2 \epsilon)$ from TS with a well specified prior, where
$\epsilon$ is the total-variation distance between priors and $H$ is the
learning horizon. Our bound does not require the prior to have any parametric
form. For priors with bounded support, our bound is independent of the
cardinality or structure of the action space, and we show that it is tight up
to universal constants in the worst case.
Building on our sensitivity analysis, we establish generic PAC guarantees for
algorithms in the recently studied Bayesian meta-learning setting and derive
corollaries for various families of priors. Our results generalize along two
axes: (1) they apply to a broader family of Bayesian decision-making
algorithms, including a Monte-Carlo implementation of the knowledge gradient
algorithm (KG), and (2) they apply to Bayesian POMDPs, the most general
Bayesian decision-making setting, encompassing contextual bandits as a special
case. Through numerical simulations, we illustrate how prior misspecification
and the deployment of one-step look-ahead (as in KG) can impact the convergence
of meta-learning in multi-armed and contextual bandits with structured and
correlated priors.
- Abstract(参考訳): トンプソンサンプリングや他のベイズ列意思決定アルゴリズムは、(文脈的な)バンディットにおける探索/展開のトレードオフに取り組むための最も一般的なアプローチである。
これらのアルゴリズムにおける事前選択は、ドメイン知識をエンコードする柔軟性を提供するが、不特定化時に性能が低下することもある。
本稿では,性能が不明瞭に低下することを示す。
我々は、トンプソンサンプリング (ts) が不特定の事前値を持つ期待報酬は、最大で$\tilde{\mathcal{o}}(h^2 \epsilon)$ が、十分に指定された事前値を持つ ts と、$\epsilon$ が事前値と$h$ の間の全変数距離である場合の学習地平線と異なることを証明する。
我々の境界は、いかなるパラメトリック形式も前もって必要としない。
有界な支持を持つ事前に対しては、我々の境界は作用空間の濃度や構造とは独立であり、最悪の場合では普遍定数に密接であることが示される。
感度分析に基づいて,最近調査されたベイズメタラーニング設定におけるアルゴリズムの一般的なpac保証と,先駆者の様々なファミリーの登録者を導出する。
この結果は,(1)知識勾配アルゴリズム(KG)のモンテカルロ実装を含むベイズ的意思決定アルゴリズムのより広範なファミリーに適用し,(2)ベイズ的意思決定設定であるベイズ的POMDPに適用し,文脈的帯域幅を特殊なケースとして含む2つの軸に沿って一般化する。
数値シミュレーションにより,1段階のルック・アヘッド(kg)の事前の誤特定と配置が,構造化および相関した前処理を伴うマルチアームとコンテキストのバンディットにおけるメタラーニングの収束にどのように影響を与えるかを示す。
関連論文リスト
- Time-Varying Gaussian Process Bandits with Unknown Prior [18.93478528448966]
PE-GP-UCBは時変ベイズ最適化問題を解くことができる。
これは、観測された関数の値が以前のいくつかの値と一致しているという事実に依存している。
論文 参考訳(メタデータ) (2024-02-02T18:52:16Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Approximate inference of marginals using the IBIA framework [0.0]
確率的グラフィカルモデル (PGM) における限界の厳密な推論は難解であることが知られている。
本稿では,段階的ビルド・インファー・アポキシマト (IBIA) パラダイムに基づく限界推定のための新しいアルゴリズムを提案する。
提案手法は,既存の変分法やサンプリング法よりも精度が良いか,あるいは同等である。
論文 参考訳(メタデータ) (2023-06-01T04:24:21Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Metalearning Linear Bandits by Prior Update [7.519872646378836]
完全なベイズ的アプローチは、問題のパラメータは既知の事前から生成されると仮定するが、実際にはそのような情報は欠落することが多い。
この問題は、ある部分的な情報を持つ意思決定設定において悪化し、不特定事前の使用は、探索の質が悪く、性能が劣る可能性がある。
この研究において、線形帯域幅とガウス事前の文脈において、事前推定が真の事前に十分近い限り、不特定事前を用いたアルゴリズムの性能は真の先行を用いたアルゴリズムのそれに近いことを証明した。
論文 参考訳(メタデータ) (2021-07-12T11:17:01Z) - Bayesian imaging using Plug & Play priors: when Langevin meets Tweedie [13.476505672245603]
本稿では,ベイズ推定を事前に行うための理論,方法,および証明可能な収束アルゴリズムを開発する。
モンテカルロサンプリングとMMSEに対する-ULA(Unadjusted Langevin)アルゴリズム推論と、推論のための定量的SGD(Stochastic Gradient Descent)の2つのアルゴリズムを紹介します。
このアルゴリズムは、点推定や不確実性の可視化や規則性に使用される画像のノイズ除去、インペインティング、ノイズ除去などのいくつかの問題で実証されています。
論文 参考訳(メタデータ) (2021-03-08T12:46:53Z) - Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討
我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。
この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文 参考訳(メタデータ) (2020-06-11T17:12:11Z) - A General Theory of the Stochastic Linear Bandit and Its Applications [8.071506311915398]
本稿では,線形バンディット問題に対する一般解析フレームワークとアルゴリズム群を紹介する。
予測における最適化という新たな概念は、OFULの過剰探索問題を減少させるSieeved greedy(SG)と呼ばれる新しいアルゴリズムを生み出します。
SGが理論的に最適であることを示すことに加えて、実験シミュレーションにより、SGはgreedy、OFUL、TSといった既存のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。