論文の概要: Learning to Price Supply Chain Contracts against a Learning Retailer
- arxiv url: http://arxiv.org/abs/2211.04586v1
- Date: Wed, 2 Nov 2022 04:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 23:18:44.569712
- Title: Learning to Price Supply Chain Contracts against a Learning Retailer
- Title(参考訳): 学習小売業者に対するプライスサプライチェーン契約の学習
- Authors: Xuejun Zhao, Ruihao Zhu, William B. Haskell
- Abstract要約: データ駆動型サプライヤが直面するサプライチェーン契約設計問題について検討する。
サプライヤーも小売業者も市場の需要について不透明だ。
これらすべてのケースにおいて、私たちの価格ポリシーがサブリニアな後悔の限界につながることが示されています。
- 参考スコア(独自算出の注目度): 3.7814216736076434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of big data analytics has automated the decision-making of companies
and increased supply chain agility. In this paper, we study the supply chain
contract design problem faced by a data-driven supplier who needs to respond to
the inventory decisions of the downstream retailer. Both the supplier and the
retailer are uncertain about the market demand and need to learn about it
sequentially. The goal for the supplier is to develop data-driven pricing
policies with sublinear regret bounds under a wide range of possible retailer
inventory policies for a fixed time horizon.
To capture the dynamics induced by the retailer's learning policy, we first
make a connection to non-stationary online learning by following the notion of
variation budget. The variation budget quantifies the impact of the retailer's
learning strategy on the supplier's decision-making. We then propose dynamic
pricing policies for the supplier for both discrete and continuous demand. We
also note that our proposed pricing policy only requires access to the support
of the demand distribution, but critically, does not require the supplier to
have any prior knowledge about the retailer's learning policy or the demand
realizations. We examine several well-known data-driven policies for the
retailer, including sample average approximation, distributionally robust
optimization, and parametric approaches, and show that our pricing policies
lead to sublinear regret bounds in all these cases.
At the managerial level, we answer affirmatively that there is a pricing
policy with a sublinear regret bound under a wide range of retailer's learning
policies, even though she faces a learning retailer and an unknown demand
distribution. Our work also provides a novel perspective in data-driven
operations management where the principal has to learn to react to the learning
policies employed by other agents in the system.
- Abstract(参考訳): ビッグデータ分析の台頭により、企業の意思決定が自動化され、サプライチェーンのアジリティが向上した。
本稿では,下流小売業者の在庫決定に応答する必要があるデータ駆動サプライヤが直面するサプライチェーン契約設計問題について検討する。
サプライヤーと小売業者の両方が市場の需要について不透明であり、それについてシーケンシャルに学ぶ必要がある。
このサプライヤーの目標は、小売業者の在庫政策を一定の時間枠で幅広い範囲で適用することで、サブリニアなリサートバウンドを持つデータ駆動型価格政策を開発することである。
小売業者の学習方針に起因したダイナミクスを捉えるために,まず,変動予算の概念に従うことにより,非定常オンライン学習と結びつける。
変動予算は、小売業者の学習戦略がサプライヤーの意思決定に与える影響を定量化する。
次に,サプライヤに対して,個別需要と連続需要の両方に対して動的価格ポリシーを提案する。
また、当社の提案した価格体系は需要分布の支援のみを必要とするが、サプライヤーが小売業者の学習方針や需要実現について事前知識を持つことは必要としない点にも留意する。
筆者らは, サンプル平均近似, 分散的ロバスト最適化, パラメトリックアプローチなど, 小売業者にとってよく知られたデータ駆動型ポリシーについて検討し, 価格政策がすべてのケースにおいて, サブリニアな後悔点につながることを示す。
経営レベルでは、学習小売業者と未知の需要分布に直面しているにもかかわらず、幅広い小売業者の学習方針の下に、サブリニアな後悔を伴う価格政策が存在することを肯定的に答える。
また,本研究は,システム内の他のエージェントが採用する学習方針に対応するために,プリンシパルが学ばなければならないデータ駆動型運用管理における新たな視点を提供する。
関連論文リスト
- Enhancing Supply Chain Visibility with Knowledge Graphs and Large Language Models [49.898152180805454]
本稿では,サプライチェーンの可視性を高めるために,知識グラフ(KG)と大規模言語モデル(LLM)を活用した新しいフレームワークを提案する。
我々のゼロショットLPM駆動アプローチは、様々な公共情報源からのサプライチェーン情報の抽出を自動化する。
NERとREタスクの精度が高く、複雑な多層供給ネットワークを理解する効果的なツールを提供する。
論文 参考訳(メタデータ) (2024-08-05T17:11:29Z) - A Primal-Dual Online Learning Approach for Dynamic Pricing of Sequentially Displayed Complementary Items under Sale Constraints [54.46126953873298]
顧客に対して順次表示される補完アイテムの動的価格設定の問題に対処する。
各項目の価格を個別に最適化するのは効果がないため、補完項目のコヒーレントな価格ポリシーが不可欠である。
実世界のデータからランダムに生成した合成設定を用いて,我々のアプローチを実証的に評価し,制約違反や後悔の観点からその性能を比較した。
論文 参考訳(メタデータ) (2024-07-08T09:55:31Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - A Knowledge Graph Perspective on Supply Chain Resilience [15.028130016717773]
世界的な危機と規制の進展はサプライチェーンの透明性とレジリエンスを高める必要がある。
サプライチェーンに関する情報、特により深いレベルでは、しばしば不透明で不完全である。
異なるデータソースを接続することにより、サプライネットワークを知識グラフとしてモデル化し、ティア3サプライヤーへの透明性を実現する。
論文 参考訳(メタデータ) (2023-05-15T10:14:30Z) - Interpretable Reinforcement Learning via Neural Additive Models for
Inventory Management [3.714118205123092]
我々は、多段階、すなわちサプライチェーンのための動的在庫発注ポリシーの開発に注力する。
従来の在庫最適化手法は、静的リオーダーポリシーを決定することを目的としている。
本稿では,従来の静的ポリシーと同程度に解釈可能な強化学習手法を提案する。
論文 参考訳(メタデータ) (2023-03-18T10:13:32Z) - Playing hide and seek: tackling in-store picking operations while
improving customer experience [0.0]
動的店内ピッカー問題ルーティング(diPRP)と呼ばれる新しい問題を定式化する。
この関連する問題 — diPRP — では、ピッカーが顧客の遭遇を最小限に抑えながら、オンライン注文を選択しようとします。
私たちの研究は、オフラインの顧客体験を危険にさらすことなく、小売店がオンライン注文の店内購入を拡大できることを示唆している。
論文 参考訳(メタデータ) (2023-01-05T16:35:17Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Self-adapting Robustness in Demand Learning [1.949912057689623]
本研究では,需要モデルあいまいさの存在下で,有限期間にわたる動的価格付けについて検討する。
データから真のモデルパラメータを学習するARL(Adaptively-robust-learning)価格ポリシを開発する。
我々は,ARLの自己適応的あいまいさセットの挙動を特徴付け,収益損失の規模と顧客到着パターンとの関係を強調する後悔の限界を導出する。
論文 参考訳(メタデータ) (2020-11-21T01:15:54Z) - Interpretable Personalization via Policy Learning with Linear Decision
Boundaries [14.817218449140338]
商品・サービスの効果的なパーソナライズは、企業が収益を改善し競争力を維持するための中核事業となっている。
本稿では政策学習のレンズを通してパーソナライズ問題を考察する。
本稿では、線形決定境界を持つポリシーのクラスを提案し、因果推論のツールを用いた学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-17T05:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。