論文の概要: Neural Thompson Sampling
- arxiv url: http://arxiv.org/abs/2010.00827v2
- Date: Thu, 30 Dec 2021 09:21:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:40:16.706364
- Title: Neural Thompson Sampling
- Title(参考訳): 神経トンプソンサンプリング
- Authors: Weitong Zhang and Dongruo Zhou and Lihong Li and Quanquan Gu
- Abstract要約: 本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
- 参考スコア(独自算出の注目度): 94.82847209157494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thompson Sampling (TS) is one of the most effective algorithms for solving
contextual multi-armed bandit problems. In this paper, we propose a new
algorithm, called Neural Thompson Sampling, which adapts deep neural networks
for both exploration and exploitation. At the core of our algorithm is a novel
posterior distribution of the reward, where its mean is the neural network
approximator, and its variance is built upon the neural tangent features of the
corresponding neural network. We prove that, provided the underlying reward
function is bounded, the proposed algorithm is guaranteed to achieve a
cumulative regret of $\mathcal{O}(T^{1/2})$, which matches the regret of other
contextual bandit algorithms in terms of total round number $T$. Experimental
comparisons with other benchmark bandit algorithms on various data sets
corroborate our theory.
- Abstract(参考訳): トンプソンサンプリング(Thompson Sampling, TS)は、コンテキスト多重武装バンディット問題を解くための最も効果的なアルゴリズムの1つである。
本稿では,深層ニューラルネットワークを探索と搾取の両方に適応させるニューラルトンプソンサンプリング(neural thompson sampling)という新しいアルゴリズムを提案する。
アルゴリズムの核となるのは、報酬の新たな後方分布であり、その平均はニューラルネットワークの近似値であり、その分散は、対応するニューラルネットワークの神経接的特徴に基づいて構築される。
基礎となる報酬関数が有界であるならば、提案アルゴリズムは合計ラウンド数$T$で他の文脈的バンディットアルゴリズムの後悔と一致する$\mathcal{O}(T^{1/2})$の累積後悔を達成することが保証される。
様々なデータセット上の他のベンチマークバンディットアルゴリズムとの実験的比較は、我々の理論を裏付けている。
関連論文リスト
- Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - Neural Exploitation and Exploration of Contextual Bandits [51.25537742455235]
本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。
EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。
EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-05T18:34:49Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - Efficiently Learning Any One Hidden Layer ReLU Network From Queries [27.428198343906352]
ネットワークへのブラックボックスアクセスを提供するニューラルネットワークアクティベーションを任意の1つの隠蔽層で学習するアルゴリズムを初めて提供する。
最悪のネットワークであっても、完全時間で効率を保証できるのはこれが初めてです。
論文 参考訳(メタデータ) (2021-11-08T18:59:40Z) - EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits [52.98326168071513]
EE-Netは、新しい探索戦略を持つニューラルネットワークベースのバンドイットアプローチである。
EE-Net が $mathcalO(sqrtTlog T)$ regret を達成することを示す。
論文 参考訳(メタデータ) (2021-10-07T04:12:36Z) - Neural Contextual Bandits without Regret [47.73483756447701]
ニューラルネットワークを用いて未知の報酬関数を近似する文脈的帯域幅のアルゴリズムを提案する。
我々のアプローチは、$tildemathcalO(T-1/2d)$ rateで最適ポリシーに収束し、$d$は文脈の次元であることを示す。
論文 参考訳(メタデータ) (2021-07-07T11:11:34Z) - Thompson Sampling for Unimodal Bandits [21.514495320038712]
本稿では, 半順序の腕に対して期待される報酬が一様であるアンフンモダル・バンディットに対するトンプソンサンプリングアルゴリズムを提案する。
ガウスの報酬に対して、我々のアルゴリズムの後悔は$mathcalO(log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。
論文 参考訳(メタデータ) (2021-06-15T14:40:34Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。