論文の概要: EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2110.03177v1
- Date: Thu, 7 Oct 2021 04:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 16:04:43.363472
- Title: EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits
- Title(参考訳): EE-Net: コンテキスト帯域における爆発探索ニューラルネットワーク
- Authors: Yikun Ban, Yuchen Yan, Arindam Banerjee, Jingrui He
- Abstract要約: EE-Netは、新しい探索戦略を持つニューラルネットワークベースのバンドイットアプローチである。
EE-Net が $mathcalO(sqrtTlog T)$ regret を達成することを示す。
- 参考スコア(独自算出の注目度): 52.98326168071513
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contextual multi-armed bandits have been studied for decades and adapted to
various applications such as online advertising and personalized
recommendation. To solve the exploitation-exploration tradeoff in bandits,
there are three main techniques: epsilon-greedy, Thompson Sampling (TS), and
Upper Confidence Bound (UCB). In recent literature, linear contextual bandits
have adopted ridge regression to estimate the reward function and combine it
with TS or UCB strategies for exploration. However, this line of works
explicitly assumes the reward is based on a linear function of arm vectors,
which may not be true in real-world datasets. To overcome this challenge, a
series of neural-based bandit algorithms have been proposed, where a neural
network is assigned to learn the underlying reward function and TS or UCB are
adapted for exploration. In this paper, we propose "EE-Net", a neural-based
bandit approach with a novel exploration strategy. In addition to utilizing a
neural network (Exploitation network) to learn the reward function, EE-Net
adopts another neural network (Exploration network) to adaptively learn
potential gains compared to currently estimated reward. Then, a decision-maker
is constructed to combine the outputs from the Exploitation and Exploration
networks. We prove that EE-Net achieves $\mathcal{O}(\sqrt{T\log T})$ regret,
which is tighter than existing state-of-the-art neural bandit algorithms
($\mathcal{O}(\sqrt{T}\log T)$ for both UCB-based and TS-based). Through
extensive experiments on four real-world datasets, we show that EE-Net
outperforms existing linear and neural bandit approaches.
- Abstract(参考訳): コンテキスト多武装の盗賊は何十年も研究され、オンライン広告やパーソナライズドレコメンデーションなど様々な用途に適応してきた。
盗賊の搾取と探索のトレードオフを解決するために、エプシロン・グレーディ、トンプソン・サンプリング(TS)、アッパー・信頼境界(UCB)の3つの主要な技術がある。
近年、線形文脈的バンディットは、報酬関数を推定し、探索のためのtsまたはucb戦略と組み合わせるためにリッジ回帰を採用した。
しかし、この一連の作業は報酬がarmベクトルの線形関数に基づいていることを明示的に仮定しており、実世界のデータセットでは当てはまらないかもしれない。
この課題を克服するために、ニューラルネットワークが基礎となる報酬関数を学習するために割り当てられ、TSまたはUTBが探索に適応する一連のニューラルネットワークベースのバンディットアルゴリズムが提案されている。
本稿では,新しい探索戦略を持つニューラルベースバンディットアプローチである"EE-Net"を提案する。
報酬関数を学習するためにニューラルネットワーク(爆発ネットワーク)を利用するのに加えて、ee-netは他のニューラルネットワーク(爆発ネットワーク)を採用し、現在推定される報酬に比べて潜在的な利益を適応的に学習する。
次に、エクスプロイテーション・エクスプロレーションネットワークからの出力を組み合わせるために、意思決定者を構築する。
UCBベースとTSベースの両方で既存の最先端のニューラルバンディットアルゴリズム(\mathcal{O}(\sqrt{T}\log T)$より厳格な、EE-Netが$\mathcal{O}(\sqrt{T\log T})$ regretを達成することを証明している。
実世界の4つのデータセットに関する広範な実験を通して、EE-Netが既存の線形およびニューラルバンディットアプローチより優れていることを示す。
関連論文リスト
- Neural Exploitation and Exploration of Contextual Bandits [51.25537742455235]
本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。
EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。
EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-05T18:34:49Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Federated Neural Bandit [46.64825970508973]
本稿では,FN-UCB(Federated Neural-upper confidence bound)アルゴリズムについて述べる。
フェデレートされた設定をよりうまく活用するために、私たちは2つのUCBの重み付けの組み合わせを採用しています。
我々は,FN-UCBの累積後悔と通信ラウンド数の両方について,線形上界を証明し,その競合性能を実証するために実証実験を用いた。
論文 参考訳(メタデータ) (2022-05-28T02:58:37Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - Convolutional Neural Bandit: Provable Algorithm for Visual-aware
Advertising [41.30283330958433]
コンテクチュアルなマルチアームバンディットは、レコメンデーション手順に存在する探索・探索ジレンマを解決するための広告の適用に成功している。
本稿では,視覚的広告に触発され,文脈的帯域幅アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-02T03:02:29Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。