論文の概要: Neural Contextual Bandits without Regret
- arxiv url: http://arxiv.org/abs/2107.03144v1
- Date: Wed, 7 Jul 2021 11:11:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 14:17:43.666096
- Title: Neural Contextual Bandits without Regret
- Title(参考訳): レグレットのないニューラルコンテクスト帯域
- Authors: Parnian Kassraie, Andreas Krause
- Abstract要約: ニューラルネットワークを用いて未知の報酬関数を近似する文脈的帯域幅のアルゴリズムを提案する。
我々のアプローチは、$tildemathcalO(T-1/2d)$ rateで最適ポリシーに収束し、$d$は文脈の次元であることを示す。
- 参考スコア(独自算出の注目度): 47.73483756447701
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Contextual bandits are a rich model for sequential decision making given side
information, with important applications, e.g., in recommender systems. We
propose novel algorithms for contextual bandits harnessing neural networks to
approximate the unknown reward function. We resolve the open problem of proving
sublinear regret bounds in this setting for general context sequences,
considering both fully-connected and convolutional networks. To this end, we
first analyze NTK-UCB, a kernelized bandit optimization algorithm employing the
Neural Tangent Kernel (NTK), and bound its regret in terms of the NTK maximum
information gain $\gamma_T$, a complexity parameter capturing the difficulty of
learning. Our bounds on $\gamma_T$ for the NTK may be of independent interest.
We then introduce our neural network based algorithm NN-UCB, and show that its
regret closely tracks that of NTK-UCB. Under broad non-parametric assumptions
about the reward function, our approach converges to the optimal policy at a
$\tilde{\mathcal{O}}(T^{-1/2d})$ rate, where $d$ is the dimension of the
context.
- Abstract(参考訳): コンテキストバンディットは、例えばレコメンダシステムにおいて重要な応用を含む、与えられたサイド情報を与える順序決定のためのリッチなモデルである。
ニューラルネットワークを用いて未知の報酬関数を近似する文脈的帯域幅に対する新しいアルゴリズムを提案する。
本稿では,完全連結ネットワークと畳み込みネットワークの両方を考慮して,この一般文脈列の設定における部分線形後悔境界の証明のオープン問題を解く。
そこで本研究では,ニューラルネットワークを用いたバンドイット最適化アルゴリズムであるntk-ucbをまず解析し,ntkの最大情報量である$\gamma_t$(学習の難しさを捉える複雑性パラメータ)を用いてその後悔を限定した。
NTK に対する $\gamma_T$ の有界性は独立な関心事かもしれない。
次に、ニューラルネットワークに基づくアルゴリズムNN-UCBを紹介し、その後悔がNTK-UCBのそれを追跡することを示す。
報酬関数に関する広範な非パラメトリック仮定の下で、我々のアプローチは、$d$が文脈の次元であるような$\tilde{\mathcal{O}}(T^{-1/2d})$ rateで最適ポリシーに収束する。
関連論文リスト
- Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - Neural Optimization Kernel: Towards Robust Deep Learning [13.147925376013129]
近年の研究では、ニューラルネットワーク(NN)とカーネルメソッドの関連性が示されている。
本稿では,カーネル(NOK)という新しいカーネルファミリーを提案する。
パラメータ化ディープNN(NOK)は,経験的リスクを低減し,有界一般化を同時に低減できることを示す。
論文 参考訳(メタデータ) (2021-06-11T00:34:55Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。