論文の概要: Order Acquisition Under Competitive Pressure: A Rapidly Adaptive Reinforcement Learning Approach for Ride-Hailing Subsidy Strategies
- arxiv url: http://arxiv.org/abs/2507.02244v2
- Date: Fri, 04 Jul 2025 03:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 11:35:12.72091
- Title: Order Acquisition Under Competitive Pressure: A Rapidly Adaptive Reinforcement Learning Approach for Ride-Hailing Subsidy Strategies
- Title(参考訳): 競争的圧力下での秩序獲得: 素早い適応型強化学習アプローチ
- Authors: Fangzhou Shi, Xiaopeng Ke, Xinye Xiong, Kexin Meng, Chang Men, Zhengdan Zhu,
- Abstract要約: 本稿では,高速競争適応(FCA)とRLA(Reinforced Lagrangian Adjustment)を提案し,競争相手の価格調整に迅速に適応する。
提案手法は,動的価格変動に対する迅速な対応を可能にする高速競争適応(FCA)と,予算制約の遵守を保証する強化ラグランジアン調整(RLA)の2つの重要な手法を統合する。
実験結果から,提案手法は多様な市場条件におけるベースラインアプローチを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.5717569761927883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of ride-hailing aggregator platforms presents significant growth opportunities for ride-service providers by increasing order volume and gross merchandise value (GMV). On most ride-hailing aggregator platforms, service providers that offer lower fares are ranked higher in listings and, consequently, are more likely to be selected by passengers. This competitive ranking mechanism creates a strong incentive for service providers to adopt coupon strategies that lower prices to secure a greater number of orders, as order volume directly influences their long-term viability and sustainability. Thus, designing an effective coupon strategy that can dynamically adapt to market fluctuations while optimizing order acquisition under budget constraints is a critical research challenge. However, existing studies in this area remain scarce. To bridge this gap, we propose FCA-RL, a novel reinforcement learning-based subsidy strategy framework designed to rapidly adapt to competitors' pricing adjustments. Our approach integrates two key techniques: Fast Competition Adaptation (FCA), which enables swift responses to dynamic price changes, and Reinforced Lagrangian Adjustment (RLA), which ensures adherence to budget constraints while optimizing coupon decisions on new price landscape. Furthermore, we introduce RideGym, the first dedicated simulation environment tailored for ride-hailing aggregators, facilitating comprehensive evaluation and benchmarking of different pricing strategies without compromising real-world operational efficiency. Experimental results demonstrate that our proposed method consistently outperforms baseline approaches across diverse market conditions, highlighting its effectiveness in subsidy optimization for ride-hailing service providers.
- Abstract(参考訳): 配車アグリゲータプラットフォームの普及は、注文量と総商品価値(GMV)を増大させることで、配車サービス提供者にとって大きな成長の機会となる。
多くの配車プラットフォームでは、運賃を下げるサービス提供者は一覧で上位にランクされ、従って乗客が選択する傾向にある。
この競争的なランキング機構は、サービス提供者が価格を下げてより多くの注文を確保できるクーポン戦略を採用するための強いインセンティブを生み出します。
したがって、予算制約下での注文獲得を最適化しながら、市場の変動に動的に適応できる効果的なクーポン戦略を設計することは、重要な研究課題である。
しかし、現存する研究は乏しい。
このギャップを埋めるため、競争相手の価格調整に迅速に適応する新しい強化学習ベースの補助戦略フレームワークであるFCA-RLを提案する。
提案手法は,動的価格変動に対する迅速な対応を可能にする高速競争適応 (FCA) と,新しい価格環境におけるクーポン決定を最適化しつつ,予算制約の遵守を保証する強化ラグランジアン調整 (RLA) の2つの主要な手法を統合する。
さらに、ライドシェアリングアグリゲータ向けに作られた最初の専用シミュレーション環境であるRideGymを紹介し、実際の運用効率を損なうことなく、さまざまな価格戦略の総合的な評価とベンチマークを容易にする。
実験の結果,提案手法は様々な市場条件におけるベースラインアプローチを一貫して上回り,配車サービス提供者に対する補助最適化の有効性を強調した。
関連論文リスト
- Dynamic Pricing in High-Speed Railways Using Multi-Agent Reinforcement Learning [4.800138615859937]
本稿では,競合演算子や協調演算子のコンテキストにおいて,効果的な動的価格戦略を設計する上での課題について述べる。
非ゼロサムマルコフゲームに基づく強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T16:19:25Z) - Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。
我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文 参考訳(メタデータ) (2024-11-20T18:06:55Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Optimizing Item-based Marketing Promotion Efficiency in C2C Marketplace with Dynamic Sequential Coupon Allocation Framework [4.664065531235124]
一連のプロモーションにおけるアイテムクーポン割当戦略を最適化する動的シーケンスクーポン割当フレームワーク(DSCAF)を導入する。
DSCAFは、クーポンの設定とターゲットアイテムのタイミングに関するシーケンシャルなレコメンデーションを提供する。
クーポン割当の現在及びその後のラウンドにおける販売確率を推定するための2つの予測器と、クーポン割当ソリューションを決定する意思決定プロセスとを統合する。
論文 参考訳(メタデータ) (2024-09-13T07:52:45Z) - OptiGrad: A Fair and more Efficient Price Elasticity Optimization via a Gradient Based Learning [7.145413681946911]
本稿では,非生命保険市場の利益率を勾配降下法により最適化する新しい手法を提案する。
1)利益マージンの最大化、2)転換率の確保、3)人口比率(DP)などの公正基準の実施の3つの主要な目標を目標としている。
論文 参考訳(メタデータ) (2024-04-16T04:21:59Z) - Benchmarking PtO and PnO Methods in the Predictive Combinatorial Optimization Regime [59.27851754647913]
予測最適化(英: Predictive optimization)は、エネルギーコストを意識したスケジューリングや広告予算配分など、多くの現実世界のアプリケーションの正確なモデリングである。
我々は,広告のための新しい産業データセットを含む8つの問題に対して,既存のPtO/PnOメソッド11をベンチマークするモジュラーフレームワークを開発した。
本研究は,8ベンチマーク中7ベンチマークにおいて,PnOアプローチがPtOよりも優れていることを示すが,PnOの設計選択に銀の弾丸は見つからない。
論文 参考訳(メタデータ) (2023-11-13T13:19:34Z) - Insurance pricing on price comparison websites via reinforcement
learning [7.023335262537794]
本稿では,モデルベースとモデルフリーの手法を統合することで,最適価格政策を学習する強化学習フレームワークを提案する。
また、オフラインデータセットを一貫した方法で価格ポリシーを評価することの重要性を強調した。
論文 参考訳(メタデータ) (2023-08-14T04:44:56Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Customer Price Sensitivities in Competitive Automobile Insurance Markets [0.0]
保険業者は、政策ステークホルダーの滞在意欲に対するプレミアム・チェンジの間接効果を取り入れるための需要ベースの戦略をますます採用している。
本稿では,顧客価格のセンシティビティを考慮し,プレミアム更新オファーを最大化する最適多時期利益を導き出す因果推論手法を検討する。
論文 参考訳(メタデータ) (2021-01-21T11:07:20Z) - Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential
Advertising [52.3825928886714]
我々は、動的knapsack問題として、シーケンシャルな広告戦略最適化を定式化する。
理論的に保証された二段階最適化フレームワークを提案し、元の最適化空間の解空間を大幅に削減する。
強化学習の探索効率を向上させるため,効果的な行動空間削減手法も考案した。
論文 参考訳(メタデータ) (2020-06-29T18:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。