論文の概要: Budgeted Recommendation with Delayed Feedback
- arxiv url: http://arxiv.org/abs/2405.11417v1
- Date: Sun, 19 May 2024 00:19:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 17:49:33.785608
- Title: Budgeted Recommendation with Delayed Feedback
- Title(参考訳): 遅延フィードバックによる予算的勧告
- Authors: Kweiguu Liu, Setareh Maghsudi,
- Abstract要約: 文脈的マルチアームバンディット問題では、フィードバック(または報酬)はアクションの直後に観測可能である。
遅延フィードバックは多くの現実の状況で発生し、特に時間に敏感なアプリケーションにおいて重要である。
我々は,学習による遅延指向リソース割り当てという意思決定ポリシーを開発し,文脈的マルチアームバンディット問題における資源支出を最適化する。
- 参考スコア(独自算出の注目度): 3.8827097541507043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a conventional contextual multi-armed bandit problem, the feedback (or reward) is immediately observable after an action. Nevertheless, delayed feedback arises in numerous real-life situations and is particularly crucial in time-sensitive applications. The exploration-exploitation dilemma becomes particularly challenging under such conditions, as it couples with the interplay between delays and limited resources. Besides, a limited budget often aggravates the problem by restricting the exploration potential. A motivating example is the distribution of medical supplies at the early stage of COVID-19. The delayed feedback of testing results, thus insufficient information for learning, degraded the efficiency of resource allocation. Motivated by such applications, we study the effect of delayed feedback on constrained contextual bandits. We develop a decision-making policy, delay-oriented resource allocation with learning (DORAL), to optimize the resource expenditure in a contextual multi-armed bandit problem with arm-dependent delayed feedback.
- Abstract(参考訳): 従来のマルチアームバンディット問題では、フィードバック(あるいは報酬)はアクションの直後に観測可能である。
それでも、遅延フィードバックは多くの現実の状況で発生し、特に時間に敏感なアプリケーションにおいて重要である。
このような条件下では、探査・探査のジレンマは特に困難となり、遅延と限られた資源の相互作用と相容れない。
加えて、限られた予算は、探索可能性を制限することで問題を悪化させることが多い。
モチベーションの例としては、新型コロナウイルスの初期段階における医療用品の流通が挙げられる。
テスト結果のフィードバックが遅れ、学習に十分な情報が得られなかったため、リソース割り当ての効率が低下した。
このような応用を動機として,遅延フィードバックが制約付きコンテキスト帯域に与える影響について検討する。
我々は、アーム依存の遅延フィードバックを伴うコンテキスト型マルチアームバンディット問題において、リソース支出を最適化するために、意思決定ポリシー、学習による遅延指向リソース割り当て(DORAL)を開発する。
関連論文リスト
- Biased Dueling Bandits with Stochastic Delayed Feedback [6.167074802065416]
遅延を伴う状況に対処するアルゴリズムを2つ提案する。
完全遅延分布情報を必要とする第1のアルゴリズムは,遅延のない場合の遅延帯域問題に対する最適後悔境界を達成できる。
第2のアルゴリズムは、分布が不明な状況に最適化されるが、遅延の期待値のみが利用可能である。
論文 参考訳(メタデータ) (2024-08-26T19:49:12Z) - Merit-based Fair Combinatorial Semi-Bandit with Unrestricted Feedback Delays [25.757803459592104]
本研究では,有益性制約下での非制限フィードバック遅延を用いた半帯域問題について検討する。
これはクラウドソーシングやオンライン広告などのアプリケーションによって動機付けられており、即時フィードバックはすぐには利用できない。
我々は,その利点に基づいて,制限のないフィードバック遅延の下で腕を選択するための新しいバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-22T07:36:27Z) - Non-stationary Delayed Combinatorial Semi-Bandit with Causally Related
Rewards [7.0997346625024]
我々は、因果関係の報酬で非定常かつ遅延半帯域問題を定式化する。
遅延したフィードバックから構造的依存関係を学習し、それを利用して意思決定を最適化する政策を開発する。
イタリアにおけるCovid-19の拡散に最も寄与する地域を検出するために, 合成および実世界のデータセットを用いて数値解析により評価を行った。
論文 参考訳(メタデータ) (2023-07-18T09:22:33Z) - Multi-Armed Bandits with Generalized Temporally-Partitioned Rewards [0.4194295877935867]
現実のアプリケーションでは、決定に関するフィードバックが遅れて、異なる遅延で観察される部分的な報酬によって到着する場合がある。
本稿では,時間分割報酬を一般化したマルチアームバンディット(multi-armed bandits)と呼ばれる新しい問題定式化を提案する。
検討した問題に対する一様に効率的なアルゴリズムの性能の低い境界を導出する。
論文 参考訳(メタデータ) (2023-03-01T16:22:22Z) - Multi-Armed Bandit Problem with Temporally-Partitioned Rewards: When
Partial Feedback Counts [53.579515853222986]
時間分割リワード(TP-MAB)を用いたマルチアーメッド・バンディット(Multi-Armed Bandit)について検討する。
この設定は、プル後の有限時間スパン上で報酬が拡張されるケースに対する遅延フィードバックバンディットの自然な拡張である。
本稿では,TP-UCB-FRとTP-UCB-EWの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T15:56:59Z) - Dare not to Ask: Problem-Dependent Guarantees for Budgeted Bandits [66.02233330016435]
後悔と質問されたフィードバックの両方について、問題に依存した保証を提供します。
本稿では,問題依存的後悔と累積的フィードバック境界を導出するBuFALUというアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-12T03:24:57Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - Stochastic bandits with arm-dependent delays [102.63128271054741]
我々は、単純なUCBベースのアルゴリズムであるPatentBanditsを提案する。
問題に依存しない境界も問題に依存しない境界も、性能の低い境界も提供します。
論文 参考訳(メタデータ) (2020-06-18T12:13:58Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。