論文の概要: BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary
Contextual Bandits
- arxiv url: http://arxiv.org/abs/2307.03587v1
- Date: Fri, 7 Jul 2023 13:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 12:19:28.789895
- Title: BOF-UCB: A Bayesian-Optimistic Frequentist Algorithm for Non-Stationary
Contextual Bandits
- Title(参考訳): BOF-UCB:非定常文脈帯域に対するベイズ最適化周波数アルゴリズム
- Authors: Nicklas Werge, Abdullah Akg\"ul, Melih Kandemir
- Abstract要約: 本研究では,非定常環境におけるコンテキスト線形帯域に対するベイズ・最適周波数帯域上信頼境界(BOF-UCB)アルゴリズムを提案する。
このベイジアンと頻繁な原理の独特な組み合わせは、動的設定における適応性と性能を高める。
- 参考スコア(独自算出の注目度): 16.59103967569845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel Bayesian-Optimistic Frequentist Upper Confidence Bound
(BOF-UCB) algorithm for stochastic contextual linear bandits in non-stationary
environments. This unique combination of Bayesian and frequentist principles
enhances adaptability and performance in dynamic settings. The BOF-UCB
algorithm utilizes sequential Bayesian updates to infer the posterior
distribution of the unknown regression parameter, and subsequently employs a
frequentist approach to compute the Upper Confidence Bound (UCB) by maximizing
the expected reward over the posterior distribution. We provide theoretical
guarantees of BOF-UCB's performance and demonstrate its effectiveness in
balancing exploration and exploitation on synthetic datasets and classical
control tasks in a reinforcement learning setting. Our results show that
BOF-UCB outperforms existing methods, making it a promising solution for
sequential decision-making in non-stationary environments.
- Abstract(参考訳): 非定常環境における確率的文脈線形帯域化のための新しいベイズ・最適周波数境界(BOF-UCB)アルゴリズムを提案する。
このベイジアンと頻繁な原理のユニークな組み合わせは、動的設定における適応性と性能を高める。
bof-ucbアルゴリズムは、未知回帰パラメータの後方分布を推定するためにシーケンシャルベイズ更新を利用し、その後、後方分布に対する期待報酬を最大化することにより、上位信頼境界(ucb)を計算するために頻繁なアプローチを用いる。
我々はBOF-UCBの性能の理論的保証を提供し、強化学習環境における合成データセットや古典的制御タスクの探索と活用のバランスをとる上での有効性を示す。
以上の結果から,BOF-UCBは既存の手法よりも優れており,非定常環境における逐次意思決定に有望なソリューションであることがわかった。
関連論文リスト
- Robust Bayesian Optimization via Localized Online Conformal Prediction [37.549297668783254]
局所化オンライン共形予測に基づくベイズ最適化(LOCBO)を導入する。
LOCBOは局所オンライン共形予測(CP)によりGPモデルを校正する
観測対象関数を保留するLOCBOのイテレートについて理論的性能保証を行う。
論文 参考訳(メタデータ) (2024-11-26T12:45:54Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - LABCAT: Locally adaptive Bayesian optimization using principal-component-aligned trust regions [0.0]
信頼領域に基づくBOを拡張した LABCAT アルゴリズムを提案する。
このアルゴリズムは、最先端のBOや他のブラックボックス最適化アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-19T13:56:24Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Model-based Causal Bayesian Optimization [78.120734120667]
モデルに基づく因果ベイズ最適化(MCBO)を提案する。
MCBOは介入と逆のペアをモデリングするのではなく、完全なシステムモデルを学ぶ。
標準的なベイズ最適化とは異なり、我々の取得関数は閉形式では評価できない。
論文 参考訳(メタデータ) (2022-11-18T14:28:21Z) - Neighbor Regularized Bayesian Optimization for Hyperparameter
Optimization [12.544312247050236]
そこで本研究では,近隣正規化ベイズ最適化(NRBO)と呼ばれる新しいBOアルゴリズムを提案する。
まず,各試料の観察を円滑に円滑に行うため,余分なトレーニングコストを伴わずに効率よく観測ノイズを低減できる近傍型正規化を提案する。
我々は、ベイズマークベンチマークとImageNetやCOCOのような重要なコンピュータビジョンベンチマークで実験を行う。
論文 参考訳(メタデータ) (2022-10-07T12:08:01Z) - Batch Bayesian optimisation via density-ratio estimation with guarantees [26.052368583196426]
本稿では,BOREの後悔を理論的に分析し,不確実性の推定を改良したアルゴリズムの拡張について述べる。
また,BOREを近似ベイズ推論として再キャストすることにより,バッチ最適化設定に自然に拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T00:42:18Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Improved Branch and Bound for Neural Network Verification via Lagrangian
Decomposition [161.09660864941603]
ニューラルネットワークの入出力特性を公式に証明するためのブランチとバウンド(BaB)アルゴリズムのスケーラビリティを改善します。
活性化に基づく新しい分岐戦略とBaBフレームワークであるブランチとデュアルネットワーク境界(BaDNB)を提案する。
BaDNBは、従来の完全検証システムを大きなマージンで上回り、対数特性で平均検証時間を最大50倍に削減した。
論文 参考訳(メタデータ) (2021-04-14T09:22:42Z) - Inferential Induction: A Novel Framework for Bayesian Reinforcement
Learning [6.16852156844376]
本稿では,データから値関数分布を正確に推定する新しいフレームワークInferential Injectionについて述べる。
本研究では,提案アルゴリズムが技術状況に対して競争力があることを実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T06:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。