論文の概要: Correlated Bandits for Dynamic Pricing via the ARC algorithm
- arxiv url: http://arxiv.org/abs/2102.04263v1
- Date: Mon, 8 Feb 2021 14:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 05:27:58.297434
- Title: Correlated Bandits for Dynamic Pricing via the ARC algorithm
- Title(参考訳): arcアルゴリズムによる動的価格設定のための相関バンディット
- Authors: Samuel Cohen and Tanut Treetanthiploet
- Abstract要約: 漸近ランダム化制御(Asymptotic Randomized Control)は、ベイズバンドの幅広いクラスに対する最適な戦略に厳密な近似を与える。
これにより、意思決定者は報酬に加えて信号を観察し、異なる選択の結果の相関を組み込むことができ、見積もりに非自明なダイナミクスを持つことができる。
- 参考スコア(独自算出の注目度): 2.7564955518050693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Asymptotic Randomised Control (ARC) algorithm provides a rigorous
approximation to the optimal strategy for a wide class of Bayesian bandits,
while retaining reasonable computational complexity. In particular, it allows a
decision maker to observe signals in addition to their rewards, to incorporate
correlations between the outcomes of different choices, and to have nontrivial
dynamics for their estimates. The algorithm is guaranteed to asymptotically
optimise the expected discounted payoff, with error depending on the initial
uncertainty of the bandit. In this paper, we consider a batched bandit problem
where observations arrive from a generalised linear model; we extend the ARC
algorithm to this setting. We apply this to a classic dynamic pricing problem
based on a Bayesian hierarchical model and demonstrate that the ARC algorithm
outperforms alternative approaches.
- Abstract(参考訳): Asymptotic Randomised Control (ARC)アルゴリズムは、合理的な計算の複雑さを維持しながら、ベイズバンドの広いクラスの最適戦略に厳密な近似を提供します。
特に、意思決定者は報酬に加えて信号を観察し、異なる選択の結果間の相関を組み込むことができ、見積もりに非自明なダイナミクスを持つことができます。
このアルゴリズムは、バンディットの初期不確実性に応じて誤差を伴って、予想される割引支払を漸近的に最適化することが保証される。
本稿では、一般化された線形モデルから観測結果が到着するバッチ帯域問題について考察し、ARCアルゴリズムをこの設定に拡張する。
これをベイズ階層モデルに基づく古典的動的価格問題に適用し、ARCアルゴリズムが代替手法よりも優れていることを示す。
関連論文リスト
- Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - High-dimensional Contextual Bandit Problem without Sparsity [8.782204980889077]
本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。
我々は、ETCアルゴリズムの最適レートを$T$で導出し、探索とエクスプロイトのバランスをとることで、このレートを実現できることを示す。
本稿では,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-19T15:29:32Z) - A Novel Framework for Improving the Breakdown Point of Robust Regression
Algorithms [1.9594639581421422]
本稿では,頑健な回帰アルゴリズムの分解点を改善するための効果的なフレームワークを提案する。
反復局所探索(CORALS)を用いた一貫した頑健な回帰アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-05-20T15:59:33Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - Robust recovery for stochastic block models [16.74630355427558]
ブロックモデルのロバストバージョンにおいて、弱い回復のための効率的なアルゴリズムを開発する。
その結果,ブロックモデルにロバストさの代償はないことがわかった。
論文 参考訳(メタデータ) (2021-11-16T15:43:00Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文 参考訳(メタデータ) (2021-04-12T16:34:43Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Bandit algorithms to emulate human decision making using probabilistic
distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。
以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文 参考訳(メタデータ) (2016-11-30T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。