論文の概要: Neural Contextual Bandits Under Delayed Feedback Constraints
- arxiv url: http://arxiv.org/abs/2504.12086v1
- Date: Wed, 16 Apr 2025 13:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:38:57.636110
- Title: Neural Contextual Bandits Under Delayed Feedback Constraints
- Title(参考訳): 遅延フィードバック制約下におけるニューラルコンテクスト帯域
- Authors: Mohammadali Moghimi, Sharu Theresa Jose, Shana Moothedath,
- Abstract要約: 本稿では,遅延報酬フィードバックの課題に対処するニューラル・コンテクチュアル・バンディット(CB)の新しいアルゴリズムを提案する。
提案したアルゴリズムは、Delayed NeuralUCBと呼ばれ、上位信頼境界(UCB)に基づく探索戦略を使用している。
MNIST や Mushroom のような実世界のデータセットに関する数値実験では,提案アルゴリズムが遅延を効果的に管理できることが示されている。
- 参考スコア(独自算出の注目度): 3.823356975862005
- License:
- Abstract: This paper presents a new algorithm for neural contextual bandits (CBs) that addresses the challenge of delayed reward feedback, where the reward for a chosen action is revealed after a random, unknown delay. This scenario is common in applications such as online recommendation systems and clinical trials, where reward feedback is delayed because the outcomes or results of a user's actions (such as recommendations or treatment responses) take time to manifest and be measured. The proposed algorithm, called Delayed NeuralUCB, uses an upper confidence bound (UCB)-based exploration strategy. Under the assumption of independent and identically distributed sub-exponential reward delays, we derive an upper bound on the cumulative regret over a T-length horizon. We further consider a variant of the algorithm, called Delayed NeuralTS, that uses Thompson Sampling-based exploration. Numerical experiments on real-world datasets, such as MNIST and Mushroom, along with comparisons to benchmark approaches, demonstrate that the proposed algorithms effectively manage varying delays and are well-suited for complex real-world scenarios.
- Abstract(参考訳): 本稿では,ランダムで未知の遅延の後,選択した行動に対する報酬が明らかにされる遅延報酬フィードバックの課題に対処する,ニューラル・コンテクチュアル・バンディット(CB)の新しいアルゴリズムを提案する。
このシナリオは、オンラインレコメンデーションシステムや臨床試験など、ユーザの行動(レコメンデーションや治療反応など)の結果や結果が明らかになり、測定される時間がかかるため、報酬のフィードバックが遅れるアプリケーションで一般的である。
提案したアルゴリズムは、Delayed NeuralUCBと呼ばれ、上位信頼境界(UCB)に基づく探索戦略を使用している。
独立かつ同一に分布するサブ指数報酬遅延の仮定の下で、T長地平線上の累積的後悔の上限を導出する。
さらに、トンプソンサンプリングに基づく探索を用いたDelayed NeuralTSと呼ばれるアルゴリズムの変種についても検討する。
MNISTやMushroomのような実世界のデータセットに関する数値実験は、ベンチマーク手法との比較とともに、提案アルゴリズムが様々な遅延を効果的に管理し、複雑な実世界のシナリオに適していることを示す。
関連論文リスト
- Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards [0.4194295877935867]
現実のアプリケーションでは、決定に関するフィードバックが遅れて、異なる遅延で観察される部分的な報酬によって到着する場合がある。
本稿では,時間分割報酬を一般化したマルチアームバンディット(multi-armed bandits)と呼ばれる新しい問題定式化を提案する。
検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
論文 参考訳(メタデータ) (2023-03-01T16:22:22Z) - Delayed Feedback in Generalised Linear Bandits Revisited [5.349852254138085]
一般化線形包帯における遅延報酬の現象を理論的に研究する。
遅延フィードバックに対する楽観的なアルゴリズムの自然な適応は、遅延に対するペナルティが地平線から独立であるような後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2022-07-21T23:35:01Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Thompson Sampling with Unrestricted Delays [18.059421254087976]
遅延フィードバックを用いたマルチアームバンディット問題におけるトンプソンサンプリングの特性について検討する。
我々のバウンダリは、アドホックアルゴリズムによって導出される最良のバウンダリに質的に匹敵する。
広範なシミュレーション実験では、トンプソンサンプリングがいくつかの代替案より優れていることが判明した。
論文 参考訳(メタデータ) (2022-02-24T23:56:36Z) - Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。
BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文 参考訳(メタデータ) (2021-02-25T17:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。