論文の概要: GuideBoot: Guided Bootstrap for Deep Contextual Bandits
- arxiv url: http://arxiv.org/abs/2107.08383v1
- Date: Sun, 18 Jul 2021 07:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 04:46:49.310656
- Title: GuideBoot: Guided Bootstrap for Deep Contextual Bandits
- Title(参考訳): GuideBoot: 深いコンテキストバンドのためのガイド付きブートストラップ
- Authors: Feiyang Pan, Haoming Li, Xiang Ao, Wei Wang, Yanrong Kang, Ao Tan and
Qing He
- Abstract要約: 文脈的バンディットアルゴリズムのためのガイドブートストラップ(GuideBoot)を導入する。
GuideBootは、実際のサンプルと偽のラベルでノイズの多いサンプルの両方で複数のモデルをトレーニングすることで、探索行動への明確なガイダンスを提供する。
提案手法は, ランダムに選択した1つのモデルのみを利用することで, 決定をオンザフライで行うことができるため, 効率的である。
- 参考スコア(独自算出の注目度): 14.983677719946666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exploration/exploitation (E&E) dilemma lies at the core of interactive
systems such as online advertising, for which contextual bandit algorithms have
been proposed. Bayesian approaches provide guided exploration with principled
uncertainty estimation, but the applicability is often limited due to
over-simplified assumptions. Non-Bayesian bootstrap methods, on the other hand,
can apply to complex problems by using deep reward models, but lacks clear
guidance to the exploration behavior. It still remains largely unsolved to
develop a practical method for complex deep contextual bandits.
In this paper, we introduce Guided Bootstrap (GuideBoot for short), combining
the best of both worlds. GuideBoot provides explicit guidance to the
exploration behavior by training multiple models over both real samples and
noisy samples with fake labels, where the noise is added according to the
predictive uncertainty. The proposed method is efficient as it can make
decisions on-the-fly by utilizing only one randomly chosen model, but is also
effective as we show that it can be viewed as a non-Bayesian approximation of
Thompson sampling. Moreover, we extend it to an online version that can learn
solely from streaming data, which is favored in real applications. Extensive
experiments on both synthetic task and large-scale advertising environments
show that GuideBoot achieves significant improvements against previous
state-of-the-art methods.
- Abstract(参考訳): 探索・探索(E&E)ジレンマは、文脈的帯域幅アルゴリズムが提案されているオンライン広告のようなインタラクティブシステムの中核にある。
ベイズ的アプローチは原則的不確実性推定を伴うガイド付き探索を提供するが、適用性は過度に単純化された仮定のために制限されることが多い。
一方、非ベイジアンブートストラップ法は、深い報酬モデルを用いて複雑な問題に適用できるが、探索行動への明確なガイダンスは欠如している。
複雑な深層バンディットの実用的な方法を開発することは、いまだにほとんど解決されていない。
本稿では,両世界のベストを結合したガイド付きブートストラップ(guideboot)を提案する。
guidebootは、予測の不確実性に応じてノイズが追加される偽のラベルで、実際のサンプルとノイズサンプルの両方で複数のモデルをトレーニングすることで、探索行動に対する明確なガイダンスを提供する。
提案手法は, ランダムに選択された1つのモデルのみを利用することで, 決定をオンザフライで行うことができるが, トンプソンサンプリングの非ベイズ近似とみなすことができ, 有効である。
さらに、実際のアプリケーションで好まれるストリーミングデータからのみ学習可能なオンラインバージョンにも拡張しています。
総合的タスクと大規模広告環境の両方に対する大規模な実験により, GuideBootは従来の最先端手法に対して大幅な改善が達成された。
関連論文リスト
- Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - An Online Bootstrap for Time Series [0.27195102129094995]
本稿では,データ依存を考慮し,オンラインで実行できるブートストラップ手法を提案する。
一般条件下でのブートストラップ方式の理論的妥当性を検証した。
我々の研究は、古典的な再サンプリング技術と現代のデータ分析の要求のギャップを埋めるものです。
論文 参考訳(メタデータ) (2023-10-30T16:03:11Z) - Dynamic Exploration-Exploitation Trade-Off in Active Learning Regression
with Bayesian Hierarchical Modeling [4.132882666134921]
探査・探査を同時に検討する方法は、最適でないかもしれないトレードオフを制御するために、固定的またはアドホックな手段を同時に採用する。
我々は,BHEEMと呼ばれるベイズ的階層的アプローチを開発し,探査・探査のトレードオフを動的にバランスさせる。
論文 参考訳(メタデータ) (2023-04-16T01:40:48Z) - Thompson Sampling with Virtual Helping Agents [0.0]
我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を活用して即時パフォーマンスを最大化し、新しい情報を探索して長期的な利益を得るというトレードオフに対処する。
本稿では,マルチアームバンディット問題に対する2つのアルゴリズムを提案し,累積的後悔に関する理論的境界を提供する。
論文 参考訳(メタデータ) (2022-09-16T23:34:44Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文 参考訳(メタデータ) (2021-10-06T17:05:33Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Deep Bayesian Bandits: Exploring in Online Personalized Recommendations [4.845576821204241]
我々は、表示広告レコメンデータを文脈的盗賊として定式化する。
クリックスルーレートの後部分布からのサンプリングを必要とする探索手法を実装した。
提案したディープベイズ帯域幅アルゴリズムをオフラインシミュレーションとオンラインAB設定で検証した。
論文 参考訳(メタデータ) (2020-08-03T08:58:18Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。