論文の概要: Multi-Agent Reinforcement Learning for Dynamic Pricing in Supply Chains: Benchmarking Strategic Agent Behaviours under Realistically Simulated Market Conditions
- arxiv url: http://arxiv.org/abs/2507.02698v1
- Date: Thu, 03 Jul 2025 15:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.493959
- Title: Multi-Agent Reinforcement Learning for Dynamic Pricing in Supply Chains: Benchmarking Strategic Agent Behaviours under Realistically Simulated Market Conditions
- Title(参考訳): サプライチェーンにおける動的価格設定のためのマルチエージェント強化学習:現実的な市場条件下での戦略エージェントのベンチマーク
- Authors: Thomas Hazenberg, Yao Ma, Seyed Sahand Mohammadi Ziabari, Marijn van Rijswijk,
- Abstract要約: 本研究では,MARL(Multi-Agent Reinforcement Learning)がサプライチェーンの動的価格戦略をどのように改善するかを検討する。
MARLは、静的な価格ルールに縛られずに、突発的な戦略行動を導入し、ダイナミックな価格設定における将来の発展を知らせる。
- 参考スコア(独自算出の注目度): 4.072683489517408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates how Multi-Agent Reinforcement Learning (MARL) can improve dynamic pricing strategies in supply chains, particularly in contexts where traditional ERP systems rely on static, rule-based approaches that overlook strategic interactions among market actors. While recent research has applied reinforcement learning to pricing, most implementations remain single-agent and fail to model the interdependent nature of real-world supply chains. This study addresses that gap by evaluating the performance of three MARL algorithms: MADDPG, MADQN, and QMIX against static rule-based baselines, within a simulated environment informed by real e-commerce transaction data and a LightGBM demand prediction model. Results show that rule-based agents achieve near-perfect fairness (Jain's Index: 0.9896) and the highest price stability (volatility: 0.024), but they fully lack competitive dynamics. Among MARL agents, MADQN exhibits the most aggressive pricing behaviour, with the highest volatility and the lowest fairness (0.5844). MADDPG provides a more balanced approach, supporting market competition (share volatility: 9.5 pp) while maintaining relatively high fairness (0.8819) and stable pricing. These findings suggest that MARL introduces emergent strategic behaviour not captured by static pricing rules and may inform future developments in dynamic pricing.
- Abstract(参考訳): 本研究では,マルチエージェント強化学習(MARL)がサプライチェーンの動的価格戦略をどのように改善するかを検討する。
最近の研究では、価格に強化学習を適用しているが、ほとんどの実装は単エージェントのままであり、現実のサプライチェーンの相互依存の性質をモデル化することができない。
本研究は,実電子商取引データとLightGBM需要予測モデルを用いて,静的ルールベースラインに対するMADDPG,MADQN,QMIXの3つのMARLアルゴリズムの性能を評価することで,そのギャップを解消するものである。
その結果、ルールベースのエージェントは、ほぼ完全な公正性(Jain's Index: 0.9896)と最高価格安定性(ボラティリティ:0.024)を達成するが、競争力のダイナミクスが完全に欠如していることが示されている。
MARLエージェントの中で、MADQNは最も積極的な価格変動を示し、最も高いボラティリティと最も低いフェアネス(0.5844)を示す。
MADDPGはよりバランスの取れたアプローチを提供し、市場競争(シェアボラティリティ:9.5pp)をサポートしながら、比較的高い公正性(0.8819)と安定した価格を維持している。
これらの結果から,MARLは静的な価格設定規則に縛られず,将来的な動的価格設定の展開を示唆している。
関連論文リスト
- Dynamic Reinsurance Treaty Bidding via Multi-Agent Reinforcement Learning [0.0]
本稿では,再保証条約入札のための新しいマルチエージェント強化学習(MARL)フレームワークを開発する。
MARLエージェントは、最大15%高い引受利益、20%低い尾リスク、25%以上のシャープ比の改善を達成する。
これらの結果は、MARLがより透明性があり、適応的で、リスクに敏感なリシュアランス市場への道を開くことを示唆している。
論文 参考訳(メタデータ) (2025-06-16T05:43:22Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Predicting Liquidity-Aware Bond Yields using Causal GANs and Deep Reinforcement Learning with LLM Evaluation [0.0]
我々は4つの主要結合カテゴリ(AAA、BAA、US10Y)の高忠実な合成結合収率データを生成する。
我々は、取引信号、リスク評価、ボラティリティ予測を生成する微調整されたLarge Language Model (LLM) Qwen2.5-7Bを採用している。
強化学習による合成データ生成は、平均絶対誤差が0.103に達し、実世界の債券市場のダイナミクスを複製する効果を実証する。
論文 参考訳(メタデータ) (2025-02-24T09:46:37Z) - MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
我々は、フェデレーション学習(FL)によるプライバシーを確保しつつ、サービスのデータ提供を容易にする没入型モデルトレーディングフレームワークを提案する。
我々は,資源制約下での高価値モデルに貢献するために,メタバースユーザ(MU)にインセンティブを与えるインセンティブ機構を設計する。
我々は、MUやその他のMSPに関するプライベート情報にアクセスすることなく、深層強化学習に基づく完全に分散された動的報酬アルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - Cross-border Commodity Pricing Strategy Optimization via Mixed Neural Network for Time Series Analysis [46.26988706979189]
クロスボーダー商品の価格設定は、企業の競争力と市場シェアを決定する。
時系列データは商品価格において非常に重要であり、市場のダイナミクスやトレンドを明らかにすることができる。
本稿では,ハイブリッドニューラルネットワークモデルCNN-BiGRU-SSAに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T03:59:52Z) - INTAGS: Interactive Agent-Guided Simulation [4.04638613278729]
マルチエージェントシステム(MAS)を含む多くのアプリケーションでは、実稼働に先立って、実験的な(Exp)自律エージェントを高忠実度シミュレータでテストすることが必須である。
本稿では,ExpエージェントとBGエージェントのライブインタラクションによって評価される実システムと合成マルチエージェントシステムとを区別する指標を提案する。
InTAGSを用いてシミュレータのキャリブレーションを行い、現状のWasserstein Generative Adversarial Networkアプローチと比較して、より現実的な市場データを生成することができることを示す。
論文 参考訳(メタデータ) (2023-09-04T19:56:18Z) - Insurance pricing on price comparison websites via reinforcement
learning [7.023335262537794]
本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。
また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
論文 参考訳(メタデータ) (2023-08-14T04:44:56Z) - Deep Policy Gradient Methods in Commodity Markets [0.0]
トレーダーは流動性を提供し、ボラティリティを下げることで市場の安定化に重要な役割を果たしている。
本論文は,商品取引における深層強化学習手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-06-14T11:50:23Z) - Joint Latent Topic Discovery and Expectation Modeling for Financial
Markets [45.758436505779386]
金融市場分析のための画期的な枠組みを提示する。
このアプローチは、投資家の期待を共同でモデル化し、潜伏する株価関係を自動的に掘り下げる最初の方法だ。
私たちのモデルは年率10%を超えるリターンを継続的に達成します。
論文 参考訳(メタデータ) (2023-06-01T01:36:51Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。