論文の概要: Variance-Aware Linear UCB with Deep Representation for Neural Contextual Bandits
- arxiv url: http://arxiv.org/abs/2411.05979v1
- Date: Fri, 08 Nov 2024 21:24:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:07.680169
- Title: Variance-Aware Linear UCB with Deep Representation for Neural Contextual Bandits
- Title(参考訳): ニューラルコンテクスト帯域の深部表現を考慮した可変認識線形UCB
- Authors: Ha Manh Bui, Enrique Mallada, Anqi Liu,
- Abstract要約: ニューラルアッパー信頼バウンド(UCB)アルゴリズムは、文脈的帯域幅で成功している。
本稿では,$sigma2_t$,すなわちラウンド$t$における報奨雑音の上限値を利用する分散認識アルゴリズムを提案する。
我々は,本アルゴリズムのオラクル版として,オラクル分散上界$sigma2_t$と,この分散境界に対する新しい推定値を持つ実用版を特徴とする。
- 参考スコア(独自算出の注目度): 9.877915844066338
- License:
- Abstract: By leveraging the representation power of deep neural networks, neural upper confidence bound (UCB) algorithms have shown success in contextual bandits. To further balance the exploration and exploitation, we propose Neural-$\sigma^2$-LinearUCB, a variance-aware algorithm that utilizes $\sigma^2_t$, i.e., an upper bound of the reward noise variance at round $t$, to enhance the uncertainty quantification quality of the UCB, resulting in a regret performance improvement. We provide an oracle version for our algorithm characterized by an oracle variance upper bound $\sigma^2_t$ and a practical version with a novel estimation for this variance bound. Theoretically, we provide rigorous regret analysis for both versions and prove that our oracle algorithm achieves a better regret guarantee than other neural-UCB algorithms in the neural contextual bandits setting. Empirically, our practical method enjoys a similar computational efficiency, while outperforming state-of-the-art techniques by having a better calibration and lower regret across multiple standard settings, including on the synthetic, UCI, MNIST, and CIFAR-10 datasets.
- Abstract(参考訳): ディープニューラルネットワークの表現力を利用することで、ニューラルネットワーク上の信頼度境界(UCB)アルゴリズムは文脈的帯域幅で成功している。
探索と搾取のバランスをさらに高めるために,$\sigma^2$-LinearUCBという,$\sigma^2_t$を用いた分散認識アルゴリズムを提案する。
我々は,本アルゴリズムのオラクル版として,オラクル分散上界$\sigma^2_t$と,この分散境界に対する新しい推定値を持つ実用版を特徴とする。
理論的には、両バージョンに対して厳密な後悔分析を行い、我々のオラクルアルゴリズムが神経文脈帯域設定における他のニューラルUCBアルゴリズムよりも良好な後悔保証を達成することを証明している。
実験的に,本手法は, 合成, UCI, MNIST, CIFAR-10データセットを含む複数の標準設定において, キャリブレーションが向上し, 後悔度が低くなることにより, 最先端技術よりも優れた計算効率を実現している。
関連論文リスト
- Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Neural Contextual Bandits without Regret [47.73483756447701]
ニューラルネットワークを用いて未知の報酬関数を近似する文脈的帯域幅のアルゴリズムを提案する。
我々のアプローチは、$tildemathcalO(T-1/2d)$ rateで最適ポリシーに収束し、$d$は文脈の次元であることを示す。
論文 参考訳(メタデータ) (2021-07-07T11:11:34Z) - Restless-UCB, an Efficient and Low-complexity Algorithm for Online
Restless Bandits [61.490254407420906]
我々は、各腕の状態がマルコフ連鎖に従って進化するオンラインレス・バンディット問題について研究する。
本研究では,探索研究の枠組みに従う学習方針であるReestless-UCBを提案する。
論文 参考訳(メタデータ) (2020-11-05T05:16:04Z) - Neural Thompson Sampling [94.82847209157494]
本稿では,ニューラルトンプソンサンプリング(Neural Thompson Smpling)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムの中核は報酬の新たな後部分布であり、その平均はニューラルネットワーク近似器であり、その分散は対応するニューラルネットワークのニューラル・タンジェントな特徴に基づいて構築されている。
論文 参考訳(メタデータ) (2020-10-02T07:44:09Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。