論文の概要: Delay-Adaptive Learning in Generalized Linear Contextual Bandits
- arxiv url: http://arxiv.org/abs/2003.05174v1
- Date: Wed, 11 Mar 2020 09:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 13:36:11.128354
- Title: Delay-Adaptive Learning in Generalized Linear Contextual Bandits
- Title(参考訳): 一般化線形文脈バンディットにおける遅延適応学習
- Authors: Jose Blanchet, Renyuan Xu and Zhengyuan Zhou
- Abstract要約: 遅延設定に適応した2つのよく知られたアルゴリズムの性能について検討する。
本稿では,この2つのアルゴリズムを遅延処理に適応させる方法について述べる。
この結果は,文脈的盗賊文学の広範な景観に寄与する。
- 参考スコア(独自算出の注目度): 18.68458152442088
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we consider online learning in generalized linear contextual
bandits where rewards are not immediately observed. Instead, rewards are
available to the decision-maker only after some delay, which is unknown and
stochastic. We study the performance of two well-known algorithms adapted to
this delayed setting: one based on upper confidence bounds, and the other based
on Thompson sampling. We describe modifications on how these two algorithms
should be adapted to handle delays and give regret characterizations for both
algorithms. Our results contribute to the broad landscape of contextual bandits
literature by establishing that both algorithms can be made to be robust to
delays, thereby helping clarify and reaffirm the empirical success of these two
algorithms, which are widely deployed in modern recommendation engines.
- Abstract(参考訳): 本稿では,報奨が即時観測されない一般化線形文脈包帯におけるオンライン学習について考察する。
代わりに、報酬は、何らかの遅延の後のみ、意思決定者に提供される。
本稿では,この遅延条件に適応した2つのよく知られたアルゴリズムの性能について検討する。
本稿では,これら2つのアルゴリズムが遅延処理にどのように適応すべきかを考察し,両アルゴリズムに後悔する特徴を与える。
本研究は,両アルゴリズムを遅延に対して頑健なものにすることで,現代のレコメンデーションエンジンに広く展開されるこれら2つのアルゴリズムの実証的成功を明確化し,再確認することによる,文脈的バンディット文学の広い景観に寄与する。
関連論文リスト
- Feel-Good Thompson Sampling for Contextual Dueling Bandits [49.450050682705026]
FGTS.CDBという名前のトンプソンサンプリングアルゴリズムを提案する。
われわれのアルゴリズムの核心は、デュエルバンディットに適した新しいFeel-Good探索用語である。
我々のアルゴリズムは最小限の誤差、すなわち $tildemathcalO(dsqrt T)$, $d$ はモデル次元、$T$ は時間水平線である。
論文 参考訳(メタデータ) (2024-04-09T04:45:18Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Overcoming Prior Misspecification in Online Learning to Rank [4.665041704405341]
我々は,前者の要求に適合する適応アルゴリズムを提案し,解析する。
クリックフィードバックに加えてスカラー関連フィードバックも検討する。
合成実験と実世界の実験の両方を用いて,本アルゴリズムの有効性を実証した。
論文 参考訳(メタデータ) (2023-01-25T15:48:00Z) - Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - Tree-Based Adaptive Model Learning [62.997667081978825]
我々はKearns-Vazirani学習アルゴリズムを拡張し、時間とともに変化するシステムを扱う。
本稿では,学習前の動作を再利用し,更新し,LearnerLibライブラリに実装し,大規模な実例で評価する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T21:24:22Z) - Efficient and Optimal Algorithms for Contextual Dueling Bandits under
Realizability [59.81339109121384]
我々は,学習者が文脈情報を用いて2つの決定を下す連続的な決定設定であるK$コンテキストデュエルバンディット問題について検討するが,一方の判断が他方よりも優れていることを示唆する強調基準に基づくフィードバックのみを観察する。
提案手法は, 最善応答後悔という新たな概念に対して, 最善応答後悔に対する最適後悔率を実現するアルゴリズムである。
論文 参考訳(メタデータ) (2021-11-24T07:14:57Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - Learning to Accelerate Heuristic Searching for Large-Scale Maximum
Weighted b-Matching Problems in Online Advertising [51.97494906131859]
バイパルタイトbマッチングはアルゴリズム設計の基本であり、経済市場や労働市場などに広く適用されている。
既存の正確で近似的なアルゴリズムは、通常そのような設定で失敗する。
我々は、以前の事例から学んだ知識を活用して、新しい問題インスタンスを解決するtextttNeuSearcherを提案する。
論文 参考訳(メタデータ) (2020-05-09T02:48:23Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。