Fugu-MT 論文翻訳(概要): Correlated Bandits for Dynamic Pricing via the ARC algorithm

論文の概要: Correlated Bandits for Dynamic Pricing via the ARC algorithm

arxiv url: http://arxiv.org/abs/2102.04263v1
Date: Mon, 8 Feb 2021 14:54:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-11 05:27:58.297434
Title: Correlated Bandits for Dynamic Pricing via the ARC algorithm
Title（参考訳）: arcアルゴリズムによる動的価格設定のための相関バンディット
Authors: Samuel Cohen and Tanut Treetanthiploet
Abstract要約: 漸近ランダム化制御(Asymptotic Randomized Control)は、ベイズバンドの幅広いクラスに対する最適な戦略に厳密な近似を与える。これにより、意思決定者は報酬に加えて信号を観察し、異なる選択の結果の相関を組み込むことができ、見積もりに非自明なダイナミクスを持つことができる。
参考スコア（独自算出の注目度）: 2.7564955518050693
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Asymptotic Randomised Control (ARC) algorithm provides a rigorous approximation to the optimal strategy for a wide class of Bayesian bandits, while retaining reasonable computational complexity. In particular, it allows a decision maker to observe signals in addition to their rewards, to incorporate correlations between the outcomes of different choices, and to have nontrivial dynamics for their estimates. The algorithm is guaranteed to asymptotically optimise the expected discounted payoff, with error depending on the initial uncertainty of the bandit. In this paper, we consider a batched bandit problem where observations arrive from a generalised linear model; we extend the ARC algorithm to this setting. We apply this to a classic dynamic pricing problem based on a Bayesian hierarchical model and demonstrate that the ARC algorithm outperforms alternative approaches.
Abstract（参考訳）: Asymptotic Randomised Control (ARC)アルゴリズムは、合理的な計算の複雑さを維持しながら、ベイズバンドの広いクラスの最適戦略に厳密な近似を提供します。特に、意思決定者は報酬に加えて信号を観察し、異なる選択の結果間の相関を組み込むことができ、見積もりに非自明なダイナミクスを持つことができます。このアルゴリズムは、バンディットの初期不確実性に応じて誤差を伴って、予想される割引支払を漸近的に最適化することが保証される。本稿では、一般化された線形モデルから観測結果が到着するバッチ帯域問題について考察し、ARCアルゴリズムをこの設定に拡張する。これをベイズ階層モデルに基づく古典的動的価格問題に適用し、ARCアルゴリズムが代替手法よりも優れていることを示す。

関連論文リスト

Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文参考訳（メタデータ） (2025-06-03T02:56:26Z)
Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。 UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文参考訳（メタデータ） (2024-05-24T04:11:58Z)
Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文参考訳（メタデータ） (2023-12-19T13:17:43Z)
High-dimensional Contextual Bandit Problem without Sparsity [8.782204980889077]
本稿では,この問題に対処し,その性能を検証するための探索列コミット(EtC)アルゴリズムを提案する。我々は、ETCアルゴリズムの最適レートを$T$で導出し、探索とエクスプロイトのバランスをとることで、このレートを実現できることを示す。本稿では,最適バランスを適応的に求める適応探索定理 (AEtC) アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-19T15:29:32Z)
A Novel Framework for Improving the Breakdown Point of Robust Regression Algorithms [1.9594639581421422]
本稿では,頑健な回帰アルゴリズムの分解点を改善するための効果的なフレームワークを提案する。反復局所探索(CORALS)を用いた一貫した頑健な回帰アルゴリズムを導出する。
論文参考訳（メタデータ） (2023-05-20T15:59:33Z)
Exploring the Algorithm-Dependent Generalization of AUPRC Optimization with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。 3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文参考訳（メタデータ） (2022-09-27T09:06:37Z)
Robust recovery for stochastic block models [16.74630355427558]
ブロックモデルのロバストバージョンにおいて、弱い回復のための効率的なアルゴリズムを開発する。その結果,ブロックモデルにロバストさの代償はないことがわかった。
論文参考訳（メタデータ） (2021-11-16T15:43:00Z)
Mean-based Best Arm Identification in Stochastic Bandits under Reward Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文参考訳（メタデータ） (2021-11-14T21:49:58Z)
Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文参考訳（メタデータ） (2021-07-02T16:21:52Z)
An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文参考訳（メタデータ） (2021-04-12T16:34:43Z)
An Asymptotically Optimal Primal-Dual Incremental Algorithm for Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文参考訳（メタデータ） (2020-10-23T09:12:47Z)
Bandit algorithms to emulate human decision making using probabilistic distortions [20.422725678982726]
報奨分布に歪んだ確率を持つ2つの多重武装バンディット問題を定式化する。以上のような後悔の最小化の問題と、マルチアームバンディットのための最高の腕識別フレームワークについて考察する。
論文参考訳（メタデータ） (2016-11-30T17:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。