論文の概要: RAST-MoE-RL: A Regime-Aware Spatio-Temporal MoE Framework for Deep Reinforcement Learning in Ride-Hailing
- arxiv url: http://arxiv.org/abs/2512.13727v1
- Date: Sat, 13 Dec 2025 20:49:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.40125
- Title: RAST-MoE-RL: A Regime-Aware Spatio-Temporal MoE Framework for Deep Reinforcement Learning in Ride-Hailing
- Title(参考訳): RAST-MoE-RL:ライダーの深部強化学習のためのレジーム対応時空間MOEフレームワーク
- Authors: Yuhan Tang, Kangxin Cui, Jung Ho Park, Yibo Zhao, Xuan Jiang, Haoze He, Dingyi Zhuang, Shenhao Wang, Jiangbo Yu, Haris Koutsopoulos, Jinhua Zhao,
- Abstract要約: RAST-MoE(Regime-of-Experts)は、自己注意型MoEエンコーダを備えた状態認識型MDPとして適応遅延マッチングを形式化する。
物理インフォームド・渋滞は、現実的な密度-速度フィードバックを保ち、数百万の効率的なロールアウトを可能にし、適応的な報酬スキームは、病理戦略から保護する。
- 参考スコア(独自算出の注目度): 11.542008509248836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ride-hailing platforms face the challenge of balancing passenger waiting times with overall system efficiency under highly uncertain supply-demand conditions. Adaptive delayed matching creates a trade-off between matching and pickup delays by deciding whether to assign drivers immediately or batch requests. Since outcomes accumulate over long horizons with stochastic dynamics, reinforcement learning (RL) is a suitable framework. However, existing approaches often oversimplify traffic dynamics or use shallow encoders that miss complex spatiotemporal patterns. We introduce the Regime-Aware Spatio-Temporal Mixture-of-Experts (RAST-MoE), which formalizes adaptive delayed matching as a regime-aware MDP equipped with a self-attention MoE encoder. Unlike monolithic networks, our experts specialize automatically, improving representation capacity while maintaining computational efficiency. A physics-informed congestion surrogate preserves realistic density-speed feedback, enabling millions of efficient rollouts, while an adaptive reward scheme guards against pathological strategies. With only 12M parameters, our framework outperforms strong baselines. On real-world Uber trajectory data (San Francisco), it improves total reward by over 13%, reducing average matching and pickup delays by 10% and 15% respectively. It demonstrates robustness across unseen demand regimes and stable training. These findings highlight the potential of MoE-enhanced RL for large-scale decision-making with complex spatiotemporal dynamics.
- Abstract(参考訳): ライドシェアリングプラットフォームは、非常に不確実な需給条件下で、乗客待ち時間とシステム全体の効率のバランスをとるという課題に直面している。
適応遅延マッチングは、すぐにドライバを割り当てるか、バッチリクエストを割り当てるかを決定することで、マッチングとピックアップの遅延の間のトレードオフを生成する。
結果が確率力学で長い地平線上に蓄積されるので、強化学習(RL)が好適なフレームワークである。
しかし、既存のアプローチはトラフィックのダイナミクスを単純化したり、複雑な時空間パターンを見逃すような浅いエンコーダを使うことが多い。
本稿では,自己注意型MOEエンコーダを備えたレジーム対応MDPとして適応遅延マッチングを形式化したRegime-Aware Spatio-Temporal Mixture-of-Experts (RAST-MoE)を紹介する。
モノリシックネットワークとは異なり、専門家は計算効率を保ちながら表現能力を向上し、自動で専門化します。
物理インフォームド・コンジケーション・サロゲートは、現実的な密度-速度フィードバックを保ち、数百万の効率的なロールアウトを可能にし、適応的な報酬スキームは、病理戦略から保護する。
たった1200万のパラメータで、我々のフレームワークは強力なベースラインを上回ります。
現実のUber軌道データ(サンフランシスコ)では、合計報酬を13%以上改善し、平均マッチングとピックアップ遅延をそれぞれ10%と15%削減する。
これは、目に見えない需要体制と安定した訓練にまたがる堅牢性を示す。
これらの結果から,複雑な時空間力学を持つ大規模意思決定におけるMoE増強RLの可能性が示唆された。
関連論文リスト
- Each Prompt Matters: Scaling Reinforcement Learning Without Wasting Rollouts on Hundred-Billion-Scale MoE [16.58714489761542]
提案するCompassMax-V3-Thinkingは,1つの原理に基づいて構築された新しいRLフレームワークでトレーニングされた100億規模のMoE推論モデルである。
これらの課題を克服するために、いくつかの統一されたイノベーションを導入します。
結果として得られるモデルは、内部評価と公開評価の両方で強力なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-12-08T16:57:43Z) - Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter [52.111923076688505]
強力な推論能力を持つ大規模言語モデル(LLM)のトレーニングは、複雑な問題解決において新たなフロンティアを解放する重要なマイルストーンとなる。
本稿では,適応的投機的復号化を組み込むことで,RL学習の無作為に推論を高速化するシステムであるTLTを提案する。
論文 参考訳(メタデータ) (2025-11-20T18:59:25Z) - Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail [85.47497935739936]
Alpamayo-R1 (AR1) は、因果推論の連鎖と軌道計画を統合する視覚言語モデルである。
また,AR1は,軌道のみのベースラインに比べて,難問の計画精度が12%向上することを示した。
今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-10-30T01:25:34Z) - MoE-Prism: Disentangling Monolithic Experts for Elastic MoE Services via Model-System Co-Designs [17.827406818899536]
MoE-Prismは、厳格なMoEモデルをエラスティックサービスに変換するモデルシステムの共同設計である。
評価の結果,MoE-Prismprovides はベースラインの4倍以上,安定な動作点であることがわかった。
これにより、厳格な予算で最大19.9%のスループットを動的に改善したり、限られたリソースで最大10.36%のレイテンシを削減できる。
論文 参考訳(メタデータ) (2025-10-22T08:40:01Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Elucidated Rolling Diffusion Models for Probabilistic Weather Forecasting [52.6508222408558]
Eucidated Rolling Diffusion Models (ERDM)を紹介する。
ERDMはEucidated Diffusion Models (EDM) の原理的, 性能的設計とローリング予測構造を統一する最初のフレームワークである
2D Navier-StokesシミュレーションとERA5グローバル気象予報の1.5円解像度では、ERDMはキー拡散ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-24T21:44:31Z) - Fractional Deep Reinforcement Learning for Age-Minimal Mobile Edge
Computing [11.403989519949173]
本研究は,AOI( Age-of-Information)によって測定された計算集約更新の時系列に焦点をあてる。
我々は,AoIのタスク更新とオフロードポリシを分断形式で共同で最適化する方法について検討する。
実験の結果,提案アルゴリズムは,いくつかの非フラクタルベンチマークと比較して平均AoIを57.6%削減できることがわかった。
論文 参考訳(メタデータ) (2023-12-16T11:13:40Z) - DA-LSTM: A Dynamic Drift-Adaptive Learning Framework for Interval Load
Forecasting with LSTM Networks [1.3342521220589318]
ドリフト等級閾値は、ドリフトを識別するための変化検出方法を設計するために定義されるべきである。
本稿では,負荷予測モデルの性能向上を図るための動的ドリフト適応長短期メモリ(DA-LSTM)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-15T16:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。