論文の概要: Learning Contextual Bandits Through Perturbed Rewards
- arxiv url: http://arxiv.org/abs/2201.09910v1
- Date: Mon, 24 Jan 2022 19:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 15:34:59.442271
- Title: Learning Contextual Bandits Through Perturbed Rewards
- Title(参考訳): 摂動リワードによる文脈帯域学習
- Authors: Yiling Jia, Weitong Zhang, Dongruo Zhou, Quanquan Gu, Hongning Wang
- Abstract要約: 標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
- 参考スコア(独自算出の注目度): 107.6210145983805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to the power of representation learning, neural contextual bandit
algorithms demonstrate remarkable performance improvement against their
classical counterparts. But because their exploration has to be performed in
the entire neural network parameter space to obtain nearly optimal regret, the
resulting computational cost is prohibitively high. We perturb the rewards when
updating the neural network to eliminate the need of explicit exploration and
the corresponding computational overhead. We prove that a
$\tilde{O}(\tilde{d}\sqrt{T})$ regret upper bound is still achievable under
standard regularity conditions, where $T$ is the number of rounds of
interactions and $\tilde{d}$ is the effective dimension of a neural tangent
kernel matrix. Extensive comparisons with several benchmark contextual bandit
algorithms, including two recent neural contextual bandit models, demonstrate
the effectiveness and computational efficiency of our proposed neural bandit
algorithm.
- Abstract(参考訳): 表現学習の力のおかげで、ニューラルネットワークの文脈的バンディットアルゴリズムは、古典的なアルゴリズムよりも優れたパフォーマンスを示している。
しかし、その探索は、ほぼ最適な後悔を得るために、ニューラルネットワークパラメータ空間全体で行う必要があるため、計算コストは違法に高い。
我々は、明示的な探索とそれに対応する計算オーバーヘッドを排除するために、ニューラルネットワークを更新する際の報酬を摂動する。
我々は、$\tilde{O}(\tilde{d}\sqrt{T})$ regret upper bound が標準正規性条件下でも達成可能であることを証明し、$T$ は相互作用のラウンド数であり、$\tilde{d}$ はニューラル接核行列の有効次元である。
最近の2つのニューラルコンテクストバンディットモデルを含む、いくつかのベンチマークコンテクストバンディットアルゴリズムとの広範な比較は、提案するニューラルバンディットアルゴリズムの有効性と計算効率を示している。
関連論文リスト
- Combinatorial Neural Bandits [10.463365653675694]
学習エージェントが各ラウンドでアームのサブセットを選択し、そのスコアに応じて選択したアームのフィードバックを受け取るというコンテキスト的盗聴問題を考える。
アルゴリズムを提案する: Combinatorial Neural UCB(textttCN-UCB)と Combinatorial Thompson Sampling(textttCN-TS$)。
論文 参考訳(メタデータ) (2023-05-31T23:27:58Z) - Efficiently Learning Any One Hidden Layer ReLU Network From Queries [27.428198343906352]
ネットワークへのブラックボックスアクセスを提供するニューラルネットワークアクティベーションを任意の1つの隠蔽層で学習するアルゴリズムを初めて提供する。
最悪のネットワークであっても、完全時間で効率を保証できるのはこれが初めてです。
論文 参考訳(メタデータ) (2021-11-08T18:59:40Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Neural Contextual Bandits without Regret [47.73483756447701]
ニューラルネットワークを用いて未知の報酬関数を近似する文脈的帯域幅のアルゴリズムを提案する。
我々のアプローチは、$tildemathcalO(T-1/2d)$ rateで最適ポリシーに収束し、$d$は文脈の次元であることを示す。
論文 参考訳(メタデータ) (2021-07-07T11:11:34Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Impact of Representation Learning in Linear Bandits [83.17684841392754]
本研究では,表現学習が帯域幅問題の効率性を向上させる方法について検討する。
我々は,$widetildeO(TsqrtkN + sqrtdkNT)$ regretを達成する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-13T16:35:30Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。