論文の概要: A Policy-Improved Deep Deterministic Policy Gradient Framework for the Discount Order Acceptance Strategy of Ride-hailing Drivers
- arxiv url: http://arxiv.org/abs/2507.11865v1
- Date: Wed, 16 Jul 2025 03:24:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.209395
- Title: A Policy-Improved Deep Deterministic Policy Gradient Framework for the Discount Order Acceptance Strategy of Ride-hailing Drivers
- Title(参考訳): 配車ドライバーの配車注文受け入れ戦略のための政策改善型Deep Deterministic Policy Gradient Framework
- Authors: Hanwen Dai, Chang Gao, Fang He, Congyuan Ji, Yanni Yang,
- Abstract要約: サードパーティのディスカウント・エクスプレスは、低料金で急行運転手が配達する。
本研究では,個々のプラットフォームの観点から,ドライバーのディスカウント・エクスプレスの受け入れを動的に管理することを目的とする。
政策改善型深層決定主義政策勾配(pi-DDPG)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.172675922077926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid expansion of platform integration has emerged as an effective solution to mitigate market fragmentation by consolidating multiple ride-hailing platforms into a single application. To address heterogeneous passenger preferences, third-party integrators provide Discount Express service delivered by express drivers at lower trip fares. For the individual platform, encouraging broader participation of drivers in Discount Express services has the potential to expand the accessible demand pool and improve matching efficiency, but often at the cost of reduced profit margins. This study aims to dynamically manage drivers' acceptance of Discount Express from the perspective of individual platforms. The lack of historical data under the new business model necessitates online learning. However, early-stage exploration through trial and error can be costly in practice, highlighting the need for reliable early-stage performance in real-world deployment. To address these challenges, this study formulates the decision regarding the proportion of drivers' acceptance behavior as a continuous control task. In response to the high stochasticity, the opaque matching mechanisms employed by third-party integrator, and the limited availability of historical data, we propose a policy-improved deep deterministic policy gradient (pi-DDPG) framework. The proposed framework incorporates a refiner module to boost policy performance during the early training phase, leverages a convolutional long short-term memory network to effectively capture complex spatiotemporal patterns, and adopts a prioritized experience replay mechanism to enhance learning efficiency. A simulator based on a real-world dataset is developed to validate the effectiveness of the proposed pi-DDPG. Numerical experiments demonstrate that pi-DDPG achieves superior learning efficiency and significantly reduces early-stage training losses.
- Abstract(参考訳): プラットフォーム統合の急速な拡張は、複数の配車プラットフォームをひとつのアプリケーションに統合することで市場の断片化を軽減する効果的なソリューションとして現れています。
不均一な乗客の嗜好に対処するため、サードパーティーのインテグレータはディスカウント・エクスプレスを低料金で運行している。
個別のプラットフォームでは、ディスカウント・エクスプレスサービスへのドライバーの広範な参加を奨励することは、アクセス可能な需要プールを拡張し、マッチング効率を向上させる可能性があるが、利益率を下げるコストがかかることが多い。
本研究では,個々のプラットフォームの観点から,ドライバーのディスカウント・エクスプレスの受け入れを動的に管理することを目的とする。
新しいビジネスモデルの下での履歴データの欠如は、オンライン学習を必要とする。
しかし、試行錯誤によるアーリーステージの探索は、現実のデプロイメントにおいて信頼性の高いアーリーステージのパフォーマンスの必要性を強調するために、実際にコストがかかる可能性がある。
これらの課題に対処するため,運転者の受入行動の割合を連続制御タスクとして定式化する。
高確率性,サードパーティインテグレータが採用する不透明なマッチング機構,および履歴データの可用性の制限に対応するため,政策改善型深層決定主義政策勾配(pi-DDPG)フレームワークを提案する。
提案フレームワークは,早期学習期間中にポリシー性能を向上させるための改良モジュールと,複雑な時空間パターンを効果的に捉えるための畳み込み長短期記憶ネットワークと,学習効率を高めるための優先的な体験再生機構を取り入れている。
提案したpi-DDPGの有効性を検証するために,実世界のデータセットに基づくシミュレータを開発した。
数値実験により、pi-DDPGは学習効率が向上し、早期訓練の損失が著しく減少することが示された。
関連論文リスト
- On-Device Diffusion Transformer Policy for Efficient Robot Manipulation [26.559546714450324]
Diffusion Policiesには、模倣学習によるロボット操作タスクが大幅に進歩している。
リソース制約のあるモバイルプラットフォームへの彼らの適用は、計算の非効率性と広範なメモリフットプリントのため、依然として困難である。
我々は,モバイルデバイス上でリアルタイムにデプロイするためのDiffusion Policiesを高速化する新しいフレームワークであるLightDPを提案する。
論文 参考訳(メタデータ) (2025-08-01T15:14:39Z) - One Step is Enough: Multi-Agent Reinforcement Learning based on One-Step Policy Optimization for Order Dispatch on Ride-Sharing Platforms [11.43941442981793]
MARLベースのライドシェアリングアプローチは、Q値またはV値の正確な推定に大きく依存している。
本稿では,値関数推定をバイパスする2つの新しい方法を提案する。
まず、GRPOをライドシェアリングに適応させ、PPOベースラインをグループ平均報酬に置き換えて、批判的推定誤差を排除する。
第2に、GRPOによるグループ報酬情報の完全活用に触発されて、配車プラットフォーム向けのPPOフレームワークをカスタマイズし、均質なフリートの下では、1ステップの報酬のみを使用して最適な政策を訓練できることを示します。
論文 参考訳(メタデータ) (2025-07-21T08:04:31Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [62.579951798437115]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Order Acquisition Under Competitive Pressure: A Rapidly Adaptive Reinforcement Learning Approach for Ride-Hailing Subsidy Strategies [0.5717569761927883]
本稿では,高速競争適応(FCA)とRLA(Reinforced Lagrangian Adjustment)を提案し,競争相手の価格調整に迅速に適応する。
提案手法は,動的価格変動に対する迅速な対応を可能にする高速競争適応(FCA)と,予算制約の遵守を保証する強化ラグランジアン調整(RLA)の2つの重要な手法を統合する。
実験結果から,提案手法は多様な市場条件におけるベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-07-03T02:38:42Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - SEVA: Leveraging Single-Step Ensemble of Vicinal Augmentations for Test-Time Adaptation [29.441669360316418]
テスト時間適応(TTA)は、推論中の迅速なモデル適応を通じて、分散シフトに対するモデルロバスト性を高めることを目的としている。
拡張戦略は、信頼性のあるサンプルの可能性を効果的に解き放つことができるが、急速に増大する計算コストは、彼らのリアルタイムアプリケーションを妨げる。
本稿では, 計算負担を増大させることなく, データの増大を生かして, 新たなTTAアプローチであるSingle-step Ensemble of Vicinal Augmentations(SEVA)を提案する。
論文 参考訳(メタデータ) (2025-05-07T02:58:37Z) - OffRIPP: Offline RL-based Informative Path Planning [12.705099730591671]
IPPはロボット工学において重要なタスクであり、ターゲット環境に関する貴重な情報を収集するためには、エージェントが経路を設計する必要がある。
トレーニング中のリアルタイムインタラクションを必要とせずに情報ゲインを最適化するオフラインRLベースのIPPフレームワークを提案する。
我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
論文 参考訳(メタデータ) (2024-09-25T11:30:59Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Fair and Efficient Distributed Edge Learning with Hybrid Multipath TCP [62.81300791178381]
無線による分散エッジ学習のボトルネックは、コンピューティングから通信へと移行した。
DEL用の既存のTCPベースのデータネットワークスキームは、アプリケーションに依存しず、アプリケーション層要求に応じて調整を施さない。
DELのためのモデルベースと深部強化学習(DRL)に基づくMP TCPを組み合わせたハイブリッドマルチパスTCP(MP TCP)を開発した。
論文 参考訳(メタデータ) (2022-11-03T09:08:30Z) - DROP: Deep relocating option policy for optimal ride-hailing vehicle
repositioning [36.31945021412277]
配車システムにおいて、空席車両の最適移動は、艦隊のアイドリング時間を著しく短縮し、供給需要分布のバランスをとることができる。
本研究では,過供給地域から逃れるための車両エージェントを監督するDep relocating option Policy (DROP)を提案する。
本稿では,ハイレベル転位ポリシと低レベルDROPのセットをトレーニングする階層型学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T10:20:53Z) - Value Function is All You Need: A Unified Learning Framework for Ride
Hailing Platforms [57.21078336887961]
DiDi、Uber、Lyftなどの大型配車プラットフォームは、都市内の数万台の車両を1日中数百万の乗車要求に接続している。
両課題に対処するための統合価値に基づく動的学習フレームワーク(V1D3)を提案する。
論文 参考訳(メタデータ) (2021-05-18T19:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。