論文の概要: PAC-Bayes Bounds for Bandit Problems: A Survey and Experimental
Comparison
- arxiv url: http://arxiv.org/abs/2211.16110v2
- Date: Sun, 16 Jul 2023 10:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 00:01:00.927756
- Title: PAC-Bayes Bounds for Bandit Problems: A Survey and Experimental
Comparison
- Title(参考訳): 帯域問題に対するPAC-Bayes境界:調査と実験的比較
- Authors: Hamish Flynn, David Reeb, Melih Kandemir, Jan Peters
- Abstract要約: PAC-Bayesは最近、厳密な性能保証を伴う原則付き学習アルゴリズムを導出できる効果的な理論として再浮上した。
医療、金融、自然科学における多くの意思決定問題は、盗賊問題としてモデル化できる。
本調査では,バンドイト問題に対するPAC-Bayes境界の概説と,これらの境界の実験的比較について述べる。
- 参考スコア(独自算出の注目度): 38.76324445090305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: PAC-Bayes has recently re-emerged as an effective theory with which one can
derive principled learning algorithms with tight performance guarantees.
However, applications of PAC-Bayes to bandit problems are relatively rare,
which is a great misfortune. Many decision-making problems in healthcare,
finance and natural sciences can be modelled as bandit problems. In many of
these applications, principled algorithms with strong performance guarantees
would be very much appreciated. This survey provides an overview of PAC-Bayes
bounds for bandit problems and an experimental comparison of these bounds. On
the one hand, we found that PAC-Bayes bounds are a useful tool for designing
offline bandit algorithms with performance guarantees. In our experiments, a
PAC-Bayesian offline contextual bandit algorithm was able to learn randomised
neural network polices with competitive expected reward and non-vacuous
performance guarantees. On the other hand, the PAC-Bayesian online bandit
algorithms that we tested had loose cumulative regret bounds. We conclude by
discussing some topics for future work on PAC-Bayesian bandit algorithms.
- Abstract(参考訳): PAC-Bayesは最近、厳密な性能保証を伴う原則付き学習アルゴリズムを導出できる効果的な理論として再浮上した。
しかし,バンドイト問題へのPAC-Bayesの適用は比較的稀であり,大きな不幸である。
医療、金融、自然科学における多くの意思決定問題は、盗賊問題としてモデル化できる。
これらのアプリケーションの多くは、強力な性能保証を持つ原則付きアルゴリズムを非常に高く評価している。
本調査では,バンドイト問題に対するPAC-Bayes境界の概説と,これらの境界の実験的比較について述べる。
一方、PAC-Bayes境界は、性能保証付きオフラインバンディットアルゴリズムの設計に有用なツールであることがわかった。
我々の実験では、PAC-Bayesianのオフライン文脈帯域幅アルゴリズムは、競合する期待報酬と非空き性能保証を持つランダム化されたニューラルネットワーク警察を学習することができた。
一方、我々がテストしたpac-bayesian online banditアルゴリズムは、累積的な後悔の限界があった。
結論として,pac-bayesian banditアルゴリズムの今後の課題について論じる。
関連論文リスト
- Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - Concentrated Differential Privacy for Bandits [11.086440815804227]
本稿では,信頼性の高い集中型意思決定者による盗賊の識別プライバシー(DP)の理解に寄与する。
本稿では,AdaC-UCB,AdaC-GOPE,AdaC-OFULの3つのプライベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-01T16:08:00Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Approximation Theory Based Methods for RKHS Bandits [9.391375268580806]
RKHSバンディット問題は、ノイズフィードバックを伴う非線形関数のオンライン最適化問題である。
逆 RKHS バンディット問題に対する一般アルゴリズムは存在しない。
本稿では, RKHSバンドイット問題に対する効率的なアルゴリズムと, RKHSバンドイット問題に対する最初の一般アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-23T05:14:21Z) - A Limitation of the PAC-Bayes Framework [32.24251308425503]
我々はPAC-Bayesフレームワークの制限を提示する。
PAC-Bayes解析には適さない簡単な学習課題を実演する。
論文 参考訳(メタデータ) (2020-06-24T06:36:00Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z) - Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。
我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2020-02-08T19:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。