論文の概要: Semi-Markov Reinforcement Learning for City-Scale EV Ride-Hailing with Feasibility-Guaranteed Actions
- arxiv url: http://arxiv.org/abs/2604.25848v1
- Date: Tue, 28 Apr 2026 16:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.958975
- Title: Semi-Markov Reinforcement Learning for City-Scale EV Ride-Hailing with Feasibility-Guaranteed Actions
- Title(参考訳): 実現可能性に配慮した都市型EVライダーのセミマルコフ強化学習
- Authors: An Nguyen, Hoang Nguyen, Phuong Le, Hung Pham, Cuong Do, Laurent El Ghaoui,
- Abstract要約: 我々は、送電、再配置、充電決定を行う電気自動車配車車両の都市規模制御について、充電器と給電器の制限を尊重しなければならない。
ヘックスグリッド半マルコフ決定過程 (semi-MDP) を混合作用で定式化する。
我々のアーキテクチャは、二層グラフ畳み込みネットワーク(GCN)エンコーダ、ツイン批評家、および敵を駆動するバリューネットワークを組み合わせる。
- 参考スコア(独自算出の注目度): 4.2221164216280025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study city-scale control of electric-vehicle (EV) ride-hailing fleets where dispatch, repositioning, and charging decisions must respect charger and feeder limits under uncertain, spatially correlated demand and travel times. We formulate the problem as a hex-grid semi-Markov decision process (semi-MDP) with mixed actions -- discrete actions for serving, repositioning, and charging, together with continuous charging power -- and variable action durations. To guarantee physical feasibility during both training and deployment, the policy learns over high-level intentions produced by a masked, temperature-annealed actor. These intentions are projected at every decision step through a time-limited rolling mixed-integer linear program (MILP) that strictly enforces state-of-charge, port, and feeder constraints. To mitigate distributional shifts, we optimize a Soft Actor--Critic (SAC) agent against a Wasserstein-1 ambiguity set with a graph-aligned Mahalanobis ground metric that captures spatial correlations. The robust backup uses the Kantorovich--Rubinstein dual, a projected subgradient inner loop, and a primal--dual risk-budget update. Our architecture combines a two-layer Graph Convolutional Network (GCN) encoder, twin critics, and a value network that drives the adversary. Experiments on a large-scale EV fleet simulator built from NYC taxi data show that PD--RSAC achieves the highest net profit, reaching \$1.22M, compared with \$0.58M--\$0.70M for strong heuristic, single-agent RL, and multi-agent RL baselines, including Greedy, SAC, MAPPO, and MADDPG, while maintaining zero feeder-limit violations.
- Abstract(参考訳): 配電、再配置、充電決定が不確実で空間的相関のある需要と走行時間の下で、充電器と給電の限界を尊重しなければならない、EV配車車両の都市規模制御について検討する。
この問題をヘックスグリッド半マルコフ決定プロセス(セミMDP)として定式化し、サービス、再配置、充電のための離散的なアクションと連続的な充電パワー、変動的な動作期間を混合する。
トレーニングとデプロイメントの両面での物理的な実現性を保証するため、このポリシーは、マスクを被った温度アニールアクターが生み出す高レベルな意図について学習する。
これらの意図は、充電状態、ポート、供給者の制約を厳格に強制する、時間制限付き複合整数線形プログラム(MILP)を通じて、決定ステップ毎に投影される。
分布シフトを緩和するために,空間相関を捉えるグラフ整列マハラノビス基底計を用いたワッサーシュタイン-1あいまい度に対して,ソフトアクタ・クリティカル (SAC) エージェントを最適化する。
頑健なバックアップには、カントロヴィチ-ルビンシュタイン双対、投射下段階の内ループ、予備的な二重リスク予算更新が使用されている。
我々のアーキテクチャは、2層グラフ畳み込みネットワーク(GCN)エンコーダ、ツイン批評家、および敵を駆動するバリューネットワークを組み合わせる。
ニューヨーク市のタクシーデータから作られた大規模なEV車両シミュレータの実験によると、PD-RSACは、強いヒューリスティック、シングルエージェントRL、およびGreedy、SAC、MAPPO、MADDPGを含むマルチエージェントRLベースラインに対する$0.58M-\$0.70Mと比較すると、$1.22Mに達した。
関連論文リスト
- RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework [49.531001563853984]
RAD-2はクローズドループ計画のための統一されたジェネレータ・ディスクリミネーターフレームワークである。
様々な軌道候補を生成する一方、RL最適化判別器は、これらの候補を長期的な運転品質に応じて再現する。
強い拡散ベースのプランナーに比べて衝突速度を56%削減する。
論文 参考訳(メタデータ) (2026-04-16T17:59:44Z) - OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks [81.07598709704628]
標準線形スケーリングを非線形分布マッチングに置き換える新しいRLトレーニング目標を提案する。
また、高度に堅牢で汎用的なマルチモーダルモデルであるOpenVLThinkerV2を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:39Z) - Autonomous Adaptive Solver Selection for Chemistry Integration via Reinforcement Learning [0.0]
本稿では,化学統合中に暗黙的BDF積分器(CVODE)と準定常解器(QSS)を自律的に選択する制約付き強化学習(RL)フレームワークを提案する。
0D同質の原子炉条件全体では、RL適応政策は平均速度が約3倍、速度が1.11倍から10.58倍になる。
再訓練なしでは、0D訓練された政策は1D逆流拡散炎に10ドル-2000mathrms-1$で移行し、一貫した$approx 2.2を提供する。
論文 参考訳(メタデータ) (2026-03-31T21:44:58Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - Socially-Weighted Alignment: A Game-Theoretic Framework for Multi-Agent LLM Systems [17.658093330392052]
本稿では,エージェントの個人目的と集団福祉の推定を補間することにより,推論時間決定の修正を行うゲーム理論フレームワークを提案する。
以上の結果から, SWAは, 過負荷下での需要増加のために, エージェントがもはや限界的なインセンティブを持たない, 臨界しきい値$*=(n-)/(n-1)$を誘導することを示した。
論文 参考訳(メタデータ) (2026-02-16T05:17:58Z) - Safe and Sustainable Electric Bus Charging Scheduling with Constrained Hierarchical DRL [43.715336081857394]
太陽光発電(PV)パネルなどの再生可能エネルギー源を備えた電気バス(EB)は、持続可能な低炭素公共交通を推進するための有望なアプローチである。
本稿では,EB充電スケジューリング問題(EBCSP)を多ソース不確実性下で解決するための安全な深層強化学習フレームワークを提案する。
我々は新しいHDRLアルゴリズム、すなわちDouble ActorCritic MultiAgent Proximal Policy Optimization Lagrangian(DACMAPPO-Lagrangian)を開発した。
論文 参考訳(メタデータ) (2025-11-25T20:00:02Z) - Single Agent Robust Deep Reinforcement Learning for Bus Fleet Control [9.910562011343009]
バスの群れは交通と乗客の需要のために都市交通にとって困難である。
バス保持制御のための単エージェント強化学習フレームワークを提案する。
修正されたアクター・クリティは,ベンチマークよりも安定かつ優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-08-28T13:47:40Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - A Deep Reinforcement Learning-Based Charging Scheduling Approach with
Augmented Lagrangian for Electric Vehicle [2.686271754751717]
本稿では,EV充電スケジューリング問題を制約付きマルコフ決定過程(CMDP)として定式化する。
本稿では, CMDP を解くために, 安全な非政治強化学習(RL)手法を提案する。
実世界の電力価格を用いた総合的な数値実験により,提案アルゴリズムは高解最適性と制約コンプライアンスを実現することができることを示した。
論文 参考訳(メタデータ) (2022-09-20T14:56:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。