論文の概要: Dual-Agent Deep Reinforcement Learning for Dynamic Pricing and Replenishment
- arxiv url: http://arxiv.org/abs/2410.21109v1
- Date: Mon, 28 Oct 2024 15:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:20:14.359645
- Title: Dual-Agent Deep Reinforcement Learning for Dynamic Pricing and Replenishment
- Title(参考訳): 動的価格と補充のためのデュアルエージェント深部強化学習
- Authors: Yi Zheng, Zehao Li, Peng Jiang, Yijie Peng,
- Abstract要約: 不整合決定周波数下での動的価格設定と補充問題について検討する。
我々は、包括的な市場データに基づいてトレーニングされた決定木に基づく機械学習アプローチを統合する。
このアプローチでは、2つのエージェントが価格と在庫を処理し、さまざまなスケールで更新される。
- 参考スコア(独自算出の注目度): 15.273192037219077
- License:
- Abstract: We study the dynamic pricing and replenishment problems under inconsistent decision frequencies. Different from the traditional demand assumption, the discreteness of demand and the parameter within the Poisson distribution as a function of price introduce complexity into analyzing the problem property. We demonstrate the concavity of the single-period profit function with respect to product price and inventory within their respective domains. The demand model is enhanced by integrating a decision tree-based machine learning approach, trained on comprehensive market data. Employing a two-timescale stochastic approximation scheme, we address the discrepancies in decision frequencies between pricing and replenishment, ensuring convergence to local optimum. We further refine our methodology by incorporating deep reinforcement learning (DRL) techniques and propose a fast-slow dual-agent DRL algorithm. In this approach, two agents handle pricing and inventory and are updated on different scales. Numerical results from both single and multiple products scenarios validate the effectiveness of our methods.
- Abstract(参考訳): 不整合決定周波数下での動的価格設定と補充問題について検討する。
従来の需要前提とは違って、ポアソン分布における需要の離散性と価格関数としてのパラメータは、問題特性の分析に複雑さをもたらす。
それぞれのドメインにおける製品価格と在庫に関して,単周期利益関数の凹凸を実証する。
需要モデルは、包括的な市場データに基づいてトレーニングされた決定ツリーベースの機械学習アプローチを統合することで強化される。
2段階の確率近似法を用いて、価格と補充の間の決定頻度の相違に対処し、局所的な最適化への収束を確保する。
深部強化学習(DRL)を取り入れた手法をさらに改良し,高速な2エージェントDRLアルゴリズムを提案する。
このアプローチでは、2つのエージェントが価格と在庫を処理し、さまざまなスケールで更新される。
単製品と複数製品の両方のシナリオによる数値的な結果から,本手法の有効性が検証された。
関連論文リスト
- Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - By Fair Means or Foul: Quantifying Collusion in a Market Simulation with Deep Reinforcement Learning [1.5249435285717095]
本研究は、反復価格競争の実験的なオリゴポリーモデルを用いる。
我々は,エージェントが開発する戦略と価格パターンについて検討し,その結果を導出する可能性がある。
以上の結果から,RLをベースとしたAIエージェントは,超競争的価格帯電を特徴とする癒着状態に収束することが示唆された。
論文 参考訳(メタデータ) (2024-06-04T15:35:08Z) - Stochastic Q-learning for Large Discrete Action Spaces [79.1700188160944]
離散的な行動空間を持つ複雑な環境では、強化学習(RL)において効果的な意思決定が重要である
我々は、$n$アクションの集合全体を最適化するのとは対照的に、おそらく$mathcalO(log(n)$)$のような変数の集合のみを考える。
提示された値ベースのRL手法には、Q-learning、StochDQN、StochDDQNなどが含まれる。
論文 参考訳(メタデータ) (2024-05-16T17:58:44Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Model-based Constrained MDP for Budget Allocation in Sequential
Incentive Marketing [28.395877073390434]
逐次インセンティブマーケティングは、オンラインビジネスにとって顧客を獲得し、忠誠心を高め、売上を伸ばすための重要なアプローチである。
予算制約下でのリターンを最大化するインセンティブを効果的に割り当てる方法については、文献ではあまり研究されていない。
本稿では,2項探索とモデルベース計画を組み合わせた効率的な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-02T08:10:45Z) - Product Segmentation Newsvendor Problems: A Robust Learning Approach [6.346881818701668]
商品セグメンテーションニューズベンダー問題は、ニューズベンダー問題の新たな変種である。
本稿では、ロバストな政策の魅力を高めるために、ロバストな学習という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-07-08T10:13:10Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement
Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - The Best of Many Worlds: Dual Mirror Descent for Online Allocation
Problems [7.433931244705934]
本稿では,意思決定者に対して未知の入力モデルを用いて,各要求に対する報酬とリソース消費を生成するデータ駆動型設定について考察する。
様々な入力モデルにおいて,どの入力に直面するかを知ることなく,優れた性能が得られるアルゴリズムの一般クラスを設計する。
我々のアルゴリズムはラグランジアン双対空間で動作し、オンラインミラー降下を用いて更新される各リソースに対して双対乗算器を保持する。
論文 参考訳(メタデータ) (2020-11-18T18:39:17Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。