論文の概要: Learning to Price with Resource Constraints: From Full Information to Machine-Learned Prices
- arxiv url: http://arxiv.org/abs/2501.14155v1
- Date: Fri, 24 Jan 2025 00:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:55:55.737476
- Title: Learning to Price with Resource Constraints: From Full Information to Machine-Learned Prices
- Title(参考訳): 資源制約による価格の学習:全情報から機械学習価格へ
- Authors: Ruicheng Ao, Jiashuo Jiang, David Simchi-Levi,
- Abstract要約: 我々はknapsackによる動的価格問題について検討し、資源制約下での探索と利用のバランスをとることの課題に対処する。
本稿では, 事前情報を持たないシナリオを対象としたオンライン学習アルゴリズムと, 予測誤りを既知の上限付きマシン学習情報量を利用した推定-then-select re-solveアルゴリズムの3つのアルゴリズムを紹介する。
- 参考スコア(独自算出の注目度): 13.68761797358598
- License:
- Abstract: We study the dynamic pricing problem with knapsack, addressing the challenge of balancing exploration and exploitation under resource constraints. We introduce three algorithms tailored to different informational settings: a Boundary Attracted Re-solve Method for full information, an online learning algorithm for scenarios with no prior information, and an estimate-then-select re-solve algorithm that leverages machine-learned informed prices with known upper bound of estimation errors. The Boundary Attracted Re-solve Method achieves logarithmic regret without requiring the non-degeneracy condition, while the online learning algorithm attains an optimal $O(\sqrt{T})$ regret. Our estimate-then-select approach bridges the gap between these settings, providing improved regret bounds when reliable offline data is available. Numerical experiments validate the effectiveness and robustness of our algorithms across various scenarios. This work advances the understanding of online resource allocation and dynamic pricing, offering practical solutions adaptable to different informational structures.
- Abstract(参考訳): 我々はknapsackによる動的価格問題について検討し、資源制約下での探索と利用のバランスをとることの課題に対処する。
本稿では, 事前情報を持たないシナリオを対象としたオンライン学習アルゴリズムと, 予測誤りを既知の上限付きマシン学習情報量を利用した推定-then-select re-solveアルゴリズムの3つのアルゴリズムを紹介する。
境界抽出再解法は、非退化条件を必要とせずに対数的後悔を達成する一方、オンライン学習アルゴリズムは最適な$O(\sqrt{T})の後悔を達成する。
我々の推定候補選択アプローチは、これらの設定間のギャップを埋め、信頼性のあるオフラインデータが利用できる場合に、後悔の限界を改善する。
数値実験により,様々なシナリオにおけるアルゴリズムの有効性とロバスト性を検証した。
この研究は、異なる情報構造に適応可能な実用的なソリューションを提供することにより、オンラインリソース割り当てと動的価格の理解を深める。
関連論文リスト
- Cost-Aware Query Policies in Active Learning for Efficient Autonomous Robotic Exploration [0.0]
本稿では,動作コストを考慮しつつ,ガウス過程回帰のためのALアルゴリズムを解析する。
距離制約を持つ伝統的な不確実性計量は、軌道距離上のルート平均二乗誤差を最小化する。
論文 参考訳(メタデータ) (2024-10-31T18:35:03Z) - Exponentially Weighted Algorithm for Online Network Resource Allocation with Long-Term Constraints [0.6466206145151128]
本稿では,ジョブ転送を伴う通信ネットワークにおける最適資源予約問題について検討する。
本稿では,長期制約を含むランダム化指数重み付け法に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-03T10:12:40Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Explainable Data-Driven Optimization: From Context to Decision and Back
Again [76.84947521482631]
データ駆動最適化では、コンテキスト情報と機械学習アルゴリズムを使用して、不確実なパラメータによる決定問題の解決策を見つける。
本稿では,データ駆動型問題に対する解法を説明するために,対実的説明手法を提案する。
在庫管理やルーティングといった運用管理における重要な問題を説明することで,我々のアプローチを実証する。
論文 参考訳(メタデータ) (2023-01-24T15:25:16Z) - Online Nonsubmodular Minimization with Delayed Costs: From Full
Information to Bandit Feedback [98.7678704343537]
我々は,オンラインおよび近似的オンライン帯域勾配勾配アルゴリズムのいくつかの変種に対する後悔の保証を,特別な構造を持つ非部分モジュラ関数のクラスに焦点をあてる。
我々は,決定の選択と帰属費用の受け取りの遅れが無拘束である場合でも,エージェントの完全な情報と盗賊のフィードバック設定に対する後悔の限界を導出する。
論文 参考訳(メタデータ) (2022-05-15T08:27:12Z) - Evolutionary Optimization for Proactive and Dynamic Computing Resource
Allocation in Open Radio Access Network [4.9711284100869815]
Open Radio Access Network (O-RAN) におけるコンピュータリソースの自動割り当てを実現するためのインテリジェントな技術が求められている
このリソース割り当て問題を解決するための既存の問題定式化は、リソースのキャパシティユーティリティを不適切な方法で定義しているため不適切である。
問題をよりよく記述した新しい定式化が提案されている。
論文 参考訳(メタデータ) (2022-01-12T08:52:04Z) - Contextual Inverse Optimization: Offline and Online Learning [3.6739949215165164]
オフラインとオンラインのコンテキスト最適化の問題について,フィードバック情報を用いて検討する。
我々は後悔を最小限に抑えることを目指しており、これは我々の損失と全知の託宣によって引き起こされた損失との違いとして定義される。
論文 参考訳(メタデータ) (2021-06-26T13:09:52Z) - Offline Inverse Reinforcement Learning [24.316047317028147]
オフラインRLは、固定された探索的なデータセットが利用可能になったときに最適なポリシーを学ぶことである。
オンライン環境での擬似演出の状態を達成したIRL技術の成功に触発されて、GANベースのデータ拡張手順を利用して、最初のオフラインIRLアルゴリズムを構築した。
論文 参考訳(メタデータ) (2021-06-09T13:44:06Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Hierarchical Adaptive Contextual Bandits for Resource Constraint based
Recommendation [49.69139684065241]
コンテキスト多重武装バンディット(MAB)は、様々な問題において最先端のパフォーマンスを達成する。
本稿では,階層型適応型文脈帯域幅法(HATCH)を提案する。
論文 参考訳(メタデータ) (2020-04-02T17:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。