論文の概要: Weighted Sequential Bayesian Inference for Non-Stationary Linear Contextual Bandits
- arxiv url: http://arxiv.org/abs/2307.03587v3
- Date: Wed, 01 Oct 2025 19:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:19.362267
- Title: Weighted Sequential Bayesian Inference for Non-Stationary Linear Contextual Bandits
- Title(参考訳): 非定常線形帯域に対する重み付き逐次ベイズ推定
- Authors: Nicklas Werge, Yi-Shan Wu, Abdullah Akgül, Melih Kandemir,
- Abstract要約: 逐次ベイズ推論のレンズによる非定常線形文脈帯域について検討する。
我々の主な貢献は、WSB後部における新しい濃度不等式である。
本稿では,WSB-LinUCB,WSB-RandLinUCB,WSB-LinTSの3つのアルゴリズムを紹介する。
- 参考スコア(独自算出の注目度): 13.06595406504317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study non-stationary linear contextual bandits through the lens of sequential Bayesian inference. Whereas existing algorithms typically rely on the Weighted Regularized Least-Squares (WRLS) objective, we study Weighted Sequential Bayesian (WSB), which maintains a posterior distribution over the time-varying reward parameters. Our main contribution is a novel concentration inequality for WSB posteriors, which introduces a prior-dependent term that quantifies the influence of initial beliefs. We show that this influence decays over time and derive tractable upper bounds that make the result useful for both analysis and algorithm design. Building on WSB, we introduce three algorithms: WSB-LinUCB, WSB-RandLinUCB, and WSB-LinTS. We establish frequentist regret guarantees: WSB-LinUCB matches the best-known WRLS-based guarantees, while WSB-RandLinUCB and WSB-LinTS improve upon them, all while preserving the computational efficiency of WRLS-based algorithms.
- Abstract(参考訳): 逐次ベイズ推論のレンズによる非定常線形文脈帯域について検討する。
既存のアルゴリズムは、通常、Weighted Regularized Least-Squares (WRLS) の目的に頼っているのに対し、Weighted Sequential Bayesian (WSB) は、時間変化した報酬パラメータの後方分布を維持する。
我々の主な貢献は、WSB後部における新しい濃度不等式であり、初期信念の影響を定量化する事前依存項を導入する。
この影響は時間の経過とともに減衰し、解析とアルゴリズム設計の両方に有用となる、引き込み可能な上界を導出することを示す。
WSB上に構築された3つのアルゴリズムは、WSB-LinUCB、WSB-RandLinUCB、WSB-LinTSである。
WSB-RandLinUCBとWSB-LinUCBはWRLSベースのアルゴリズムの計算効率を保ちながら、WSB-RandLinUCBとWSB-LinTSはそれらを改善します。
関連論文リスト
- BAPE: Learning an Explicit Bayes Classifier for Long-tailed Visual Recognition [78.70453964041718]
現在のディープラーニングアルゴリズムは通常、後部確率を簡易に推定することで最適分類器を解く。
この単純な手法は、厳密にバランスのとれた学術ベンチマークデータセットに有効であることが証明されている。
しかし、これは現実世界の長い尾のデータ分布には適用できない。
本稿では,データ分布のより正確な理論的推定を行う新しい手法(BAPE)を提案する。
論文 参考訳(メタデータ) (2025-06-29T15:12:50Z) - Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [56.805574957824135]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-05-28T03:55:05Z) - Batched Nonparametric Bandits via k-Nearest Neighbor UCB [0.0]
バッチ化された非パラメトリックな文脈的包帯における逐次的意思決定について検討する。
適応的k-アネレスト近傍(k-NN)回帰と上位信頼境界(UCB)の原理を組み合わせた非パラメトリックアルゴリズムを提案する。
提案手法であるBaNk-UCBは完全に非パラメトリックであり,コンテキスト次元に適応し,実装が簡単である。
論文 参考訳(メタデータ) (2025-05-15T17:00:51Z) - Robust Bayesian Optimization via Localized Online Conformal Prediction [37.549297668783254]
局所化オンライン共形予測に基づくベイズ最適化(LOCBO)を導入する。
LOCBOは局所オンライン共形予測(CP)によりGPモデルを校正する
観測対象関数を保留するLOCBOのイテレートについて理論的性能保証を行う。
論文 参考訳(メタデータ) (2024-11-26T12:45:54Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - LABCAT: Locally adaptive Bayesian optimization using principal-component-aligned trust regions [0.0]
信頼領域に基づくBOを拡張した LABCAT アルゴリズムを提案する。
このアルゴリズムは、最先端のBOや他のブラックボックス最適化アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-19T13:56:24Z) - Model-based Causal Bayesian Optimization [74.78486244786083]
乗算重み付き因果ベイズ最適化のための最初のアルゴリズム(CBO-MW)を提案する。
グラフ関連の量に自然に依存するCBO-MWに対する後悔の限界を導出する。
我々の実験は、共有モビリティシステムにおいて、ユーザの需要パターンを学習するためにCBO-MWをどのように使用できるかの現実的なデモを含む。
論文 参考訳(メタデータ) (2023-07-31T13:02:36Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Model-based Causal Bayesian Optimization [78.120734120667]
モデルに基づく因果ベイズ最適化(MCBO)を提案する。
MCBOは介入と逆のペアをモデリングするのではなく、完全なシステムモデルを学ぶ。
標準的なベイズ最適化とは異なり、我々の取得関数は閉形式では評価できない。
論文 参考訳(メタデータ) (2022-11-18T14:28:21Z) - Neighbor Regularized Bayesian Optimization for Hyperparameter
Optimization [12.544312247050236]
そこで本研究では,近隣正規化ベイズ最適化(NRBO)と呼ばれる新しいBOアルゴリズムを提案する。
まず,各試料の観察を円滑に円滑に行うため,余分なトレーニングコストを伴わずに効率よく観測ノイズを低減できる近傍型正規化を提案する。
我々は、ベイズマークベンチマークとImageNetやCOCOのような重要なコンピュータビジョンベンチマークで実験を行う。
論文 参考訳(メタデータ) (2022-10-07T12:08:01Z) - Batch Bayesian optimisation via density-ratio estimation with guarantees [26.052368583196426]
本稿では,BOREの後悔を理論的に分析し,不確実性の推定を改良したアルゴリズムの拡張について述べる。
また,BOREを近似ベイズ推論として再キャストすることにより,バッチ最適化設定に自然に拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-09-22T00:42:18Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Improved Branch and Bound for Neural Network Verification via Lagrangian
Decomposition [161.09660864941603]
ニューラルネットワークの入出力特性を公式に証明するためのブランチとバウンド(BaB)アルゴリズムのスケーラビリティを改善します。
活性化に基づく新しい分岐戦略とBaBフレームワークであるブランチとデュアルネットワーク境界(BaDNB)を提案する。
BaDNBは、従来の完全検証システムを大きなマージンで上回り、対数特性で平均検証時間を最大50倍に削減した。
論文 参考訳(メタデータ) (2021-04-14T09:22:42Z) - Inferential Induction: A Novel Framework for Bayesian Reinforcement
Learning [6.16852156844376]
本稿では,データから値関数分布を正確に推定する新しいフレームワークInferential Injectionについて述べる。
本研究では,提案アルゴリズムが技術状況に対して競争力があることを実験的に実証した。
論文 参考訳(メタデータ) (2020-02-08T06:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。