Fugu-MT 論文翻訳(概要): PAC-Bayes Bounds for Bandit Problems: A Survey and Experimental Comparison

論文の概要: PAC-Bayes Bounds for Bandit Problems: A Survey and Experimental Comparison

arxiv url: http://arxiv.org/abs/2211.16110v1
Date: Tue, 29 Nov 2022 11:34:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-30 15:08:54.897619
Title: PAC-Bayes Bounds for Bandit Problems: A Survey and Experimental Comparison
Title（参考訳）: 帯域問題に対するPAC-Bayes境界:調査と実験的比較
Authors: Hamish Flynn, David Reeb, Melih Kandemir, Jan Peters
Abstract要約: PAC-Bayesは最近、厳密な性能保証を伴う原則付き学習アルゴリズムを導出できる効果的な理論として再浮上した。医療、金融、自然科学における多くの意思決定問題は、盗賊問題としてモデル化できる。本調査では,バンドイット問題に対するPAC-Bayes性能境界の概説と,これらの境界の実験的比較について述べる。
参考スコア（独自算出の注目度）: 38.76324445090305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: PAC-Bayes has recently re-emerged as an effective theory with which one can derive principled learning algorithms with tight performance guarantees. However, applications of PAC-Bayes to bandit problems are relatively rare, which is a great misfortune. Many decision-making problems in healthcare, finance and natural sciences can be modelled as bandit problems. In many of these applications, principled algorithms with strong performance guarantees would be very much appreciated. This survey provides an overview of PAC-Bayes performance bounds for bandit problems and an experimental comparison of these bounds. Our experimental comparison has revealed that available PAC-Bayes upper bounds on the cumulative regret are loose, whereas available PAC-Bayes lower bounds on the expected reward can be surprisingly tight. We found that an offline contextual bandit algorithm that learns a policy by optimising a PAC-Bayes bound was able to learn randomised neural network polices with competitive expected reward and non-vacuous performance guarantees.
Abstract（参考訳）: PAC-Bayesは最近、厳密な性能保証を伴う原則付き学習アルゴリズムを導出できる効果的な理論として再浮上した。しかし,バンドイト問題へのPAC-Bayesの適用は比較的稀であり,大きな不幸である。医療、金融、自然科学における多くの意思決定問題は、盗賊問題としてモデル化できる。これらのアプリケーションの多くは、強力な性能保証を持つ原則付きアルゴリズムを非常に高く評価している。本調査では,バンドイット問題に対するPAC-Bayes性能境界の概説と,これらの境界の実験的比較について述べる。実験の結果, 累積的後悔に対するPAC-Bayes上限は緩く, 期待される報酬に対するPAC-Bayes下限は驚くほど厳密であることがわかった。 PAC-Bayes境界を最適化することでポリシーを学習するオフラインコンテキスト帯域幅アルゴリズムは、競合する期待報酬と非空き性能保証を持つランダム化されたニューラルネットワーク警察を学習できることがわかった。

関連論文リスト

Towards Efficient Contrastive PAC Learning [6.209600119671225]
我々はPAC学習の枠組みの下で対照的な学習について研究する。本稿では,線形表現の基本概念の対照的な学習について考察する。我々は,Rademacherの複雑性に基づいた保証を確立し,それとPACの保証を,ある対照的な大マルジン条件下で接続する。
論文参考訳（メタデータ） (2025-02-21T21:51:01Z)
Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。 UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文参考訳（メタデータ） (2024-05-24T04:11:58Z)
Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文参考訳（メタデータ） (2024-04-09T04:45:18Z)
Concentrated Differential Privacy for Bandits [11.086440815804227]
本稿では,信頼性の高い集中型意思決定者による盗賊の識別プライバシー(DP)の理解に寄与する。本稿では,AdaC-UCB,AdaC-GOPE,AdaC-OFULの3つのプライベートアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-01T16:08:00Z)
Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文参考訳（メタデータ） (2020-12-24T05:36:29Z)
Approximation Theory Based Methods for RKHS Bandits [9.391375268580806]
RKHSバンディット問題は、ノイズフィードバックを伴う非線形関数のオンライン最適化問題である。逆 RKHS バンディット問題に対する一般アルゴリズムは存在しない。本稿では, RKHSバンドイット問題に対する効率的なアルゴリズムと, RKHSバンドイット問題に対する最初の一般アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-10-23T05:14:21Z)
A Limitation of the PAC-Bayes Framework [32.24251308425503]
我々はPAC-Bayesフレームワークの制限を提示する。 PAC-Bayes解析には適さない簡単な学習課題を実演する。
論文参考訳（メタデータ） (2020-06-24T06:36:00Z)
Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文参考訳（メタデータ） (2020-06-16T15:33:12Z)
Improved Algorithms for Conservative Exploration in Bandits [113.55554483194832]
文脈線形帯域設定における保守的学習問題について検討し、新しいアルゴリズムである保守的制約付きLinUCB(CLUCB2)を導入する。我々は、既存の結果と一致したCLUCB2に対する後悔の限界を導き、多くの合成および実世界の問題において、最先端の保守的バンディットアルゴリズムよりも優れていることを実証的に示す。
論文参考訳（メタデータ） (2020-02-08T19:35:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。