論文の概要: Batched Neural Bandits
- arxiv url: http://arxiv.org/abs/2102.13028v1
- Date: Thu, 25 Feb 2021 17:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 13:58:59.658004
- Title: Batched Neural Bandits
- Title(参考訳): バッチニューラルバンド
- Authors: Quanquan Gu and Amin Karbasi and Khashayar Khosravi and Vahab Mirrokni
and Dongruo Zhou
- Abstract要約: BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
- 参考スコア(独自算出の注目度): 107.5072688105936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many sequential decision-making problems, the individuals are split into
several batches and the decision-maker is only allowed to change her policy at
the end of batches. These batch problems have a large number of applications,
ranging from clinical trials to crowdsourcing. Motivated by this, we study the
stochastic contextual bandit problem for general reward distributions under the
batched setting. We propose the BatchNeuralUCB algorithm which combines neural
networks with optimism to address the exploration-exploitation tradeoff while
keeping the total number of batches limited. We study BatchNeuralUCB under both
fixed and adaptive batch size settings and prove that it achieves the same
regret as the fully sequential version while reducing the number of policy
updates considerably. We confirm our theoretical results via simulations on
both synthetic and real-world datasets.
- Abstract(参考訳): 多くのシーケンシャルな意思決定問題では、個人は複数のバッチに分割され、意思決定者はバッチの最後にポリシーを変更することしか許されない。
これらのバッチ問題には、臨床試験からクラウドソーシングまで、多数のアプリケーションがあります。
そこで本研究では,バッチ環境下での一般報酬分布に対する確率的文脈的バンディット問題を考察する。
BatchNeuralUCBアルゴリズムは、ニューラルネットワークと楽観性を組み合わせて探索・探索トレードオフに対処し、バッチの総数を制限します。
我々は,BatchNeuralUCBをバッチサイズと適応サイズの両方で検討し,完全なシーケンシャルバージョンと同じ後悔を達成できるとともに,ポリシー更新の回数を大幅に削減できることを示す。
合成データセットと実世界データセットのシミュレーションにより,理論結果を確認する。
関連論文リスト
- Batched Nonparametric Contextual Bandits [21.031965676746776]
バッチ制約下での非パラメトリック文脈帯域について検討する。
最適な後悔を実現する新しいバッチ学習アルゴリズムを提案する。
我々の理論的結果は、非パラメトリックな文脈的帯域幅では、ほぼ一定数のポリシー更新が最適な後悔をもたらすことを示唆している。
論文 参考訳(メタデータ) (2024-02-27T18:06:20Z) - Batch Bayesian Optimization for Replicable Experimental Design [56.64902148159355]
多くの実世界の設計問題は、大規模で異質な観測ノイズのため、複数の実験条件を並列に評価し、各条件を複数回再現する。
本稿では,3つのアルゴリズムを含むReplicable Experimental Designフレームワークのバッチトンプソンサンプリングを提案する。
我々は,アルゴリズムの有効性を,精密農業とAutoMLの2つの実世界の応用例で示す。
論文 参考訳(メタデータ) (2023-11-02T12:46:03Z) - Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards [0.4194295877935867]
現実のアプリケーションでは、決定に関するフィードバックが遅れて、異なる遅延で観察される部分的な報酬によって到着する場合がある。
本稿では,時間分割報酬を一般化したマルチアームバンディット(multi-armed bandits)と呼ばれる新しい問題定式化を提案する。
検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
論文 参考訳(メタデータ) (2023-03-01T16:22:22Z) - Sample-Then-Optimize Batch Neural Thompson Sampling [50.800944138278474]
我々はトンプソンサンプリング(TS)ポリシーに基づくブラックボックス最適化のための2つのアルゴリズムを提案する。
入力クエリを選択するには、NNをトレーニングし、トレーニングされたNNを最大化してクエリを選択するだけです。
我々のアルゴリズムは、大きなパラメータ行列を逆転する必要性を助長するが、TSポリシーの妥当性は保たれている。
論文 参考訳(メタデータ) (2022-10-13T09:01:58Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Adaptive Combinatorial Allocation [77.86290991564829]
割り当てが繰り返し選択され、戻り値は不明だが学習可能であり、決定には制約が伴う。
我々のモデルは、複雑な制約があっても、両側のマッチングと一方のマッチングをカバーしています。
論文 参考訳(メタデータ) (2020-11-04T15:02:59Z) - Dynamic Batch Learning in High-Dimensional Sparse Linear Contextual
Bandits [18.64677502651614]
高次元線形空間帯域における動的バッチ学習の問題点について検討する。
我々の研究は、高次元の疎線形文脈帯域における動的バッチ学習の理論的理解への第一歩となる。
論文 参考訳(メタデータ) (2020-08-27T05:34:34Z) - Sequential Batch Learning in Finite-Action Linear Contextual Bandits [40.01661188919779]
有限作用集合を持つ線形文脈帯域における逐次バッチ学習問題について検討する。
この問題は、実用アプリケーションにおいて、多くのパーソナライズされたシーケンシャルな意思決定問題のよりきめ細かい定式化を提供する。
論文 参考訳(メタデータ) (2020-04-14T06:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。