論文の概要: Graph-Attentive MAPPO for Dynamic Retail Pricing
- arxiv url: http://arxiv.org/abs/2511.00039v1
- Date: Tue, 28 Oct 2025 00:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.530524
- Title: Graph-Attentive MAPPO for Dynamic Retail Pricing
- Title(参考訳): 動的小売価格のためのグラフ付きMAPPO
- Authors: Krishna Kumar Neelakanta Pillai Santha Kumari Amma,
- Abstract要約: 本稿では,小売価格最適化のためのマルチエージェント強化学習の体系的研究について述べる。
強MAPPOベースラインとグラフ付加型MAPPO+GATの比較を行った。
その結果,MAPPOはポートフォリオレベルの価格管理のための堅牢で再現可能な基盤を提供することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic pricing in retail requires policies that adapt to shifting demand while coordinating decisions across related products. We present a systematic empirical study of multi-agent reinforcement learning for retail price optimization, comparing a strong MAPPO baseline with a graph-attention-augmented variant (MAPPO+GAT) that leverages learned interactions among products. Using a simulated pricing environment derived from real transaction data, we evaluate profit, stability across random seeds, fairness across products, and training efficiency under a standardized evaluation protocol. The results indicate that MAPPO provides a robust and reproducible foundation for portfolio-level price control, and that MAPPO+GAT further enhances performance by sharing information over the product graph without inducing excessive price volatility. These results indicate that graph-integrated MARL provides a more scalable and stable solution than independent learners for dynamic retail pricing, offering practical advantages in multi-product decision-making.
- Abstract(参考訳): 小売業の動的価格設定には、需要の変化に対応し、関連する製品間で意思決定を調整するポリシーが必要である。
本稿では,小売価格最適化のためのマルチエージェント強化学習の体系的実証的研究を行い,学習された製品間の相互作用を活用するグラフ付加型(MAPPO+GAT)と強力なMAPPOベースラインを比較した。
実取引データから得られた模擬価格環境を用いて, 収益性, ランダムシード間の安定性, 製品間の公正性, および標準化された評価プロトコルによるトレーニング効率を評価する。
その結果、MAPPOはポートフォリオレベルの価格管理のための堅牢で再現可能な基盤を提供し、MAPPO+GATは過剰な価格変動を招くことなく、製品グラフ上で情報を共有することにより、さらなるパフォーマンスの向上を図っている。
これらの結果は,グラフ統合型MARLが動的小売価格の独立学習者よりもスケーラブルで安定したソリューションを提供し,マルチプロダクト意思決定において実用的優位性を提供することを示している。
関連論文リスト
- From Headlines to Holdings: Deep Learning for Smarter Portfolio Decisions [4.288926547930663]
ディープラーニングを用いてポートフォリオの重みを学習するエンドツーエンドフレームワークを提案する。
我々は、セクターの多様性とニュース報道のバランスをとるために選ばれた6つのセクターにまたがる9つの米国株の枠組みを評価する。
株式の世界は限られているが、結果はポートフォリオ管理のための価格、リレーショナル、感情信号の統合の価値を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-29T00:42:24Z) - Multi-Agent Reinforcement Learning for Dynamic Pricing in Supply Chains: Benchmarking Strategic Agent Behaviours under Realistically Simulated Market Conditions [4.072683489517408]
本研究では,MARL(Multi-Agent Reinforcement Learning)がサプライチェーンの動的価格戦略をどのように改善するかを検討する。
MARLは、静的な価格ルールに縛られずに、突発的な戦略行動を導入し、ダイナミックな価格設定における将来の発展を知らせる。
論文 参考訳(メタデータ) (2025-07-03T15:07:37Z) - Transfer Learning for Nonparametric Contextual Dynamic Pricing [17.420508136662257]
動的価格戦略は、市場条件や顧客特性に基づいて価格を調整することで、企業が収益を最大化する上で不可欠である。
この制限を克服するための有望なアプローチの1つは、関連する製品や市場からの情報を活用して、焦点となる価格決定を知らせることである。
本稿では,ソースドメインからの事前収集データを効果的に活用し,対象ドメインの価格決定を効率化する,新しいTLDPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-31T01:05:04Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - A Bargaining-based Approach for Feature Trading in Vertical Federated
Learning [54.51890573369637]
本稿では,垂直的フェデレートラーニング(VFL)において,経済的に効率的な取引を促進するための交渉型特徴取引手法を提案する。
当社のモデルでは,収益ベース最適化の目的を考慮し,パフォーマンスゲインベースの価格設定を取り入れている。
論文 参考訳(メタデータ) (2024-02-23T10:21:07Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - KnowGraph-PM: a Knowledge Graph based Pricing Model for Semiconductors
Supply Chains [0.0]
KnowGraph-PMは知識グラフベースの動的価格モデルである。
価格変動は顧客との対立を引き起こす可能性がある。
セマンティックデータの統合によって、顧客に適した収益管理が可能になることを実証する。
論文 参考訳(メタデータ) (2022-05-13T10:34:57Z) - Model Distillation for Revenue Optimization: Interpretable Personalized
Pricing [8.07517029746865]
我々は、複雑なブラックボックス機械学習アルゴリズムから知識を抽出する、カスタマイズされた、規範的なツリーベースアルゴリズムを提案する。
同様のバリュエーションで顧客を分割し、解釈可能性を維持しながら収益を最大化するような価格を定めている。
論文 参考訳(メタデータ) (2020-07-03T18:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。