論文の概要: Localized exploration in contextual dynamic pricing achieves dimension-free regret
- arxiv url: http://arxiv.org/abs/2412.19252v1
- Date: Thu, 26 Dec 2024 15:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:14.561652
- Title: Localized exploration in contextual dynamic pricing achieves dimension-free regret
- Title(参考訳): 文脈的動的価格決定における局所探索は無次元後悔を達成する
- Authors: Jinhang Chai, Yaqi Duan, Jianqing Fan, Kaizheng Wang,
- Abstract要約: 線形需要モデルを用いてコンテキスト動的価格の問題を考察する。
そこで本研究では,新しい局所探索アルゴリズムを提案する。
地平線が限られているとき、探索と搾取のバランスをとる方法を示す。
- 参考スコア(独自算出の注目度): 9.130911865751099
- License:
- Abstract: We study the problem of contextual dynamic pricing with a linear demand model. We propose a novel localized exploration-then-commit (LetC) algorithm which starts with a pure exploration stage, followed by a refinement stage that explores near the learned optimal pricing policy, and finally enters a pure exploitation stage. The algorithm is shown to achieve a minimax optimal, dimension-free regret bound when the time horizon exceeds a polynomial of the covariate dimension. Furthermore, we provide a general theoretical framework that encompasses the entire time spectrum, demonstrating how to balance exploration and exploitation when the horizon is limited. The analysis is powered by a novel critical inequality that depicts the exploration-exploitation trade-off in dynamic pricing, mirroring its existing counterpart for the bias-variance trade-off in regularized regression. Our theoretical results are validated by extensive experiments on synthetic and real-world data.
- Abstract(参考訳): 線形需要モデルを用いてコンテキスト動的価格の問題を考察する。
そこで本研究では,探索段階から始まり,学習された最適価格ポリシの近傍を探索する改良段階を経て,最終的に純粋利用段階に入る,新しい局所探索-then-commit(LetC)アルゴリズムを提案する。
このアルゴリズムは、時間水平線が共変次元の多項式を超えるとき、最小限の最適、次元自由な後悔境界を達成することが示される。
さらに、時間スペクトル全体を包含する一般的な理論的枠組みを提供し、地平線が制限されたときの探査と利用のバランスのバランスを示す。
この分析は、動的価格の探索・爆発的トレードオフを描写し、正規化回帰におけるバイアス分散トレードオフを反映した、新しい批判的不平等を生かしている。
我々の理論結果は、合成および実世界のデータに関する広範な実験によって検証される。
関連論文リスト
- Utility Fairness in Contextual Dynamic Pricing with Demand Learning [23.26236046836737]
本稿では,ユーティリティフェアネス制約下でのパーソナライズされた価格設定のための新しいコンテキスト帯域幅アルゴリズムを提案する。
動的価格設定と需要学習を取り入れた当社のアプローチは,価格戦略における公正性の重要課題に対処する。
論文 参考訳(メタデータ) (2023-11-28T05:19:23Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Calibration of Derivative Pricing Models: a Multi-Agent Reinforcement
Learning Perspective [3.626013617212667]
量的金融における最も基本的な問題の1つは、与えられたオプションセットの市場価格に適合する連続時間拡散モデルの存在である。
我々の貢献は、この問題の適切なゲーム理論定式化が、現代の深層多エージェント強化学習における既存の発展を活用することで、この問題をいかに解決できるかを示すことである。
論文 参考訳(メタデータ) (2022-03-14T05:34:00Z) - Globally Convergent Policy Search over Dynamic Filters for Output
Estimation [64.90951294952094]
我々は,大域的に最適な$textitdynamic$ filterに収束する最初の直接ポリシー探索アルゴリズム凸を導入する。
我々は、情報化が前述の優越性を克服していることを示す。
論文 参考訳(メタデータ) (2022-02-23T18:06:20Z) - Online Allocation with Two-sided Resource Constraints [44.5635910908944]
我々は,要求が順次到着する,リソース制約の低いオンラインアロケーション問題を考える。
提案手法では, リクエスト全体を知るオフライン問題に対して, 1-O (fracepsilonalpha-epsilon)$-competitive ratioを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-28T02:21:06Z) - Geometric Entropic Exploration [52.67987687712534]
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
論文 参考訳(メタデータ) (2021-01-06T14:15:07Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z) - Dynamic Subgoal-based Exploration via Bayesian Optimization [7.297146495243708]
スパース・リワードナビゲーション環境における強化学習は困難であり、効果的な探索の必要性を生じさせる。
本稿では,動的サブゴールに基づく探索手法のクラスを効率的に探索する,費用対効果を考慮したベイズ最適化手法を提案する。
実験により、新しいアプローチは、多くの問題領域で既存のベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2019-10-21T04:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。