論文の概要: Neural Contextual Bandits with Deep Representation and Shallow
Exploration
- arxiv url: http://arxiv.org/abs/2012.01780v1
- Date: Thu, 3 Dec 2020 09:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 15:08:30.780066
- Title: Neural Contextual Bandits with Deep Representation and Shallow
Exploration
- Title(参考訳): 深部表現と浅部探索によるニューラルコンテクスト帯域
- Authors: Pan Xu and Zheng Wen and Handong Zhao and Quanquan Gu
- Abstract要約: 本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
- 参考スコア(独自算出の注目度): 105.8099566651448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a general class of contextual bandits, where each context-action
pair is associated with a raw feature vector, but the reward generating
function is unknown. We propose a novel learning algorithm that transforms the
raw feature vector using the last hidden layer of a deep ReLU neural network
(deep representation learning), and uses an upper confidence bound (UCB)
approach to explore in the last linear layer (shallow exploration). We prove
that under standard assumptions, our proposed algorithm achieves
$\tilde{O}(\sqrt{T})$ finite-time regret, where $T$ is the learning time
horizon. Compared with existing neural contextual bandit algorithms, our
approach is computationally much more efficient since it only needs to explore
in the last layer of the deep neural network.
- Abstract(参考訳): 本研究では,各コンテキスト・アクション・ペアが生の特徴ベクトルに関連付けられているが,報酬生成関数は未知である。
本稿では,deep reluニューラルネットワークの最後の隠れ層(deep representation learning)を用いて生特徴ベクトルを変換し,uper confidence bound(ucb)アプローチを用いて最後の線形層を探索する新しい学習アルゴリズムを提案する。
標準的な仮定の下では、提案アルゴリズムは学習時間の地平線として$\tilde{O}(\sqrt{T})$ finite-time regret(英語版)を達成する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
関連論文リスト
- Neural Exploitation and Exploration of Contextual Bandits [51.25537742455235]
本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。
EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。
EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-05T18:34:49Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits [52.98326168071513]
EE-Netは、新しい探索戦略を持つニューラルネットワークベースのバンドイットアプローチである。
EE-Net が $mathcalO(sqrtTlog T)$ regret を達成することを示す。
論文 参考訳(メタデータ) (2021-10-07T04:12:36Z) - Neural Contextual Bandits without Regret [47.73483756447701]
ニューラルネットワークを用いて未知の報酬関数を近似する文脈的帯域幅のアルゴリズムを提案する。
我々のアプローチは、$tildemathcalO(T-1/2d)$ rateで最適ポリシーに収束し、$d$は文脈の次元であることを示す。
論文 参考訳(メタデータ) (2021-07-07T11:11:34Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。