論文の概要: Neural Exploitation and Exploration of Contextual Bandits
- arxiv url: http://arxiv.org/abs/2305.03784v1
- Date: Fri, 5 May 2023 18:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 19:32:20.979180
- Title: Neural Exploitation and Exploration of Contextual Bandits
- Title(参考訳): コンテクスト・バンディットのニューラル・エクスプロイジョンと探索
- Authors: Yikun Ban, Yuchen Yan, Arindam Banerjee, Jingrui He
- Abstract要約: 本研究では,ニューラルネットワークを用いたコンテキスト型マルチアームバンディットの活用と探索について検討する。
EE-Netは、ニューラルベースによる新たなエクスプロイトと探索戦略である。
EE-Netは、実世界のデータセット上での線形およびニューラルネットワークの帯域ベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 51.25537742455235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we study utilizing neural networks for the exploitation and
exploration of contextual multi-armed bandits. Contextual multi-armed bandits
have been studied for decades with various applications. To solve the
exploitation-exploration trade-off in bandits, there are three main techniques:
epsilon-greedy, Thompson Sampling (TS), and Upper Confidence Bound (UCB). In
recent literature, a series of neural bandit algorithms have been proposed to
adapt to the non-linear reward function, combined with TS or UCB strategies for
exploration. In this paper, instead of calculating a large-deviation based
statistical bound for exploration like previous methods, we propose,
``EE-Net,'' a novel neural-based exploitation and exploration strategy. In
addition to using a neural network (Exploitation network) to learn the reward
function, EE-Net uses another neural network (Exploration network) to
adaptively learn the potential gains compared to the currently estimated reward
for exploration. We provide an instance-based
$\widetilde{\mathcal{O}}(\sqrt{T})$ regret upper bound for EE-Net and show that
EE-Net outperforms related linear and neural contextual bandit baselines on
real-world datasets.
- Abstract(参考訳): 本稿では,ニューラルネットワークを用いた多腕バンディットの活用と探索について検討する。
コンテキスト多武装の盗賊は、様々な用途で何十年も研究されてきた。
盗賊の搾取と探索のトレードオフを解決するために、エプシロン・グレーディ、トンプソン・サンプリング(TS)、アッパー・信頼境界(UCB)の3つの主要な技術がある。
近年の文献では、非線形報酬関数に適応する一連のニューラルバンディットアルゴリズムと、探索のためのTSやUCB戦略が提案されている。
本稿では,従来の手法と同様に探索に限定した大規模評価に基づく統計量を計算する代わりに,新しいニューラル・ベースの探索戦略である `ee-net,' を提案する。
報酬関数を学習するためにニューラルネットワーク(爆発ネットワーク)を使用するのに加えて、ee-netは別のニューラルネットワーク(爆発ネットワーク)を使用して、現在推定されている探索報酬に比べて潜在的な利益を適応的に学習する。
インスタンスベースの$\widetilde{\mathcal{o}}(\sqrt{t})$ regret upperbound for ee-netを提供し、ee-netが実際のデータセット上で関連する線形およびニューラルネットワークのコンテキスト的バンディットベースラインよりも優れていることを示す。
関連論文リスト
- Federated Neural Bandit [46.64825970508973]
本稿では,FN-UCB(Federated Neural-upper confidence bound)アルゴリズムについて述べる。
フェデレートされた設定をよりうまく活用するために、私たちは2つのUCBの重み付けの組み合わせを採用しています。
我々は,FN-UCBの累積後悔と通信ラウンド数の両方について,線形上界を証明し,その競合性能を実証するために実証実験を用いた。
論文 参考訳(メタデータ) (2022-05-28T02:58:37Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - EE-Net: Exploitation-Exploration Neural Networks in Contextual Bandits [52.98326168071513]
EE-Netは、新しい探索戦略を持つニューラルネットワークベースのバンドイットアプローチである。
EE-Net が $mathcalO(sqrtTlog T)$ regret を達成することを示す。
論文 参考訳(メタデータ) (2021-10-07T04:12:36Z) - Convolutional Neural Bandit: Provable Algorithm for Visual-aware
Advertising [41.30283330958433]
コンテクチュアルなマルチアームバンディットは、レコメンデーション手順に存在する探索・探索ジレンマを解決するための広告の適用に成功している。
本稿では,視覚的広告に触発され,文脈的帯域幅アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-02T03:02:29Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - Neural Networks and Value at Risk [59.85784504799224]
リスクしきい値推定における資産価値のモンテカルロシミュレーションを行う。
株式市場と長期債を試験資産として利用し、ニューラルネットワークについて検討する。
はるかに少ないデータでフィードされたネットワークは、大幅にパフォーマンスが悪くなっています。
論文 参考訳(メタデータ) (2020-05-04T17:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。