論文の概要: Efficient Online Bayesian Inference for Neural Bandits
- arxiv url: http://arxiv.org/abs/2112.00195v1
- Date: Wed, 1 Dec 2021 00:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 03:36:24.771312
- Title: Efficient Online Bayesian Inference for Neural Bandits
- Title(参考訳): ニューラルバンドに対する効率的なオンラインベイズ推論
- Authors: Gerardo Duran-Martin and Aleyna Kara and Kevin Murphy
- Abstract要約: ベイジアンニューラルネットワークにおけるオンライン(逐次)推論のための新しいアルゴリズムを提案する。
キーとなる考え方は、拡張カルマンフィルタとパラメータの部分空間を組み合わせることである。
We show good results on the "Deep Bayesian Bandit Showdown" benchmark, as MNIST and a recommender system。
- 参考スコア(独自算出の注目度): 10.353171848879187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we present a new algorithm for online (sequential) inference in
Bayesian neural networks, and show its suitability for tackling contextual
bandit problems. The key idea is to combine the extended Kalman filter (which
locally linearizes the likelihood function at each time step) with a (learned
or random) low-dimensional affine subspace for the parameters; the use of a
subspace enables us to scale our algorithm to models with $\sim 1M$ parameters.
While most other neural bandit methods need to store the entire past dataset in
order to avoid the problem of "catastrophic forgetting", our approach uses
constant memory. This is possible because we represent uncertainty about all
the parameters in the model, not just the final linear layer. We show good
results on the "Deep Bayesian Bandit Showdown" benchmark, as well as MNIST and
a recommender system.
- Abstract(参考訳): 本稿では,ベイズ型ニューラルネットワークにおけるオンライン(系列)推論のための新しいアルゴリズムを提案する。
重要なアイデアは、拡張kalmanフィルタ(各時間ステップで度数関数を局所的に線形化する)とパラメータのための(学習またはランダムな)低次元アフィン部分空間を組み合わせることである。
他のほとんどのニューラルバンディット手法は「破滅的忘れ」の問題を避けるために過去のデータセット全体を保存する必要があるが、我々のアプローチは定数メモリを使用する。
これは、最終線形層だけでなく、モデル内のすべてのパラメータに対する不確実性を表すため、可能である。
我々は,mnist やレコメンデーションシステムと同様に "deep bayesian bandit showdown" ベンチマークで良好な結果を示した。
関連論文リスト
- Stochastic Bandits with ReLU Neural Networks [40.41457480347015]
我々は,1層ReLUニューラルネットワークの帯域を考慮すれば,$tildeO(sqrtT)の後悔保証が達成可能であることを示す。
この上限を達成できるOFU-ReLUアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-12T16:54:57Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - Optimal Stopping via Randomized Neural Networks [6.677219861416146]
本稿では、標準基底関数やディープニューラルネットワークの代わりにランダム化されたニューラルネットワークを使用することの利点について述べる。
我々のアプローチは、既存のアプローチがますます非現実的になるような高次元問題に適用できる。
いずれにせよ、我々のアルゴリズムは、最先端や他の関連する機械学習アプローチよりも時間的に優れている。
論文 参考訳(メタデータ) (2021-04-28T09:47:21Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。