論文の概要: Learning Model Predictive Controllers for Real-Time Ride-Hailing Vehicle
Relocation and Pricing Decisions
- arxiv url: http://arxiv.org/abs/2111.03204v1
- Date: Fri, 5 Nov 2021 00:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 15:10:15.679106
- Title: Learning Model Predictive Controllers for Real-Time Ride-Hailing Vehicle
Relocation and Pricing Decisions
- Title(参考訳): リアルタイム乗用車移動と価格決定のための学習モデル予測制御
- Authors: Enpeng Yuan, Pascal Van Hentenryck
- Abstract要約: 大規模配車システムは、個々の要求レベルでのリアルタイムルーティングと、動的価格設定と車両の移動のためのマクロなモデル予測制御(MPC)の最適化を組み合わせることが多い。
本稿では、MPC最適化を学習することで、これらの計算課題に対処する。
結果の機械学習モデルは最適化プロキシとして機能し、その最適解を予測する。
- 参考スコア(独自算出の注目度): 15.80796896560034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale ride-hailing systems often combine real-time routing at the
individual request level with a macroscopic Model Predictive Control (MPC)
optimization for dynamic pricing and vehicle relocation. The MPC relies on a
demand forecast and optimizes over a longer time horizon to compensate for the
myopic nature of the routing optimization. However, the longer horizon
increases computational complexity and forces the MPC to operate at coarser
spatial-temporal granularity, degrading the quality of its decisions. This
paper addresses these computational challenges by learning the MPC
optimization. The resulting machine-learning model then serves as the
optimization proxy and predicts its optimal solutions. This makes it possible
to use the MPC at higher spatial-temporal fidelity, since the optimizations can
be solved and learned offline. Experimental results show that the proposed
approach improves quality of service on challenging instances from the New York
City dataset.
- Abstract(参考訳): 大規模配車システムは、個々の要求レベルでのリアルタイムルーティングと、動的価格設定と車両の移動のためのマクロなモデル予測制御(MPC)の最適化を組み合わせることが多い。
MPCは需要予測に依存し、経路最適化の神秘的な性質を補うために長い時間的地平線を最適化する。
しかし、より長い地平線は計算の複雑さを増大させ、MPCは粗い空間時間的粒度の操作を強制し、その決定の質を低下させる。
本稿では,mpc最適化の学習による計算課題について述べる。
結果の機械学習モデルは最適化プロキシとして機能し、その最適解を予測する。
これにより、最適化は解決されオフラインで学習できるため、より高い空間的時間的忠実度でmpcを使うことができる。
実験結果から,提案手法はニューヨーク市のデータセットから,課題のあるインスタンスのサービス品質を向上させることが示された。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Deep Model Predictive Optimization [21.22047409735362]
ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
本稿では,MPC最適化アルゴリズムの内ループを体験を通して直接学習するDeep Model Predictive Optimization (DMPO)を提案する。
DMPOは、MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
論文 参考訳(メタデータ) (2023-10-06T21:11:52Z) - An Automatic Tuning MPC with Application to Ecological Cruise Control [0.0]
本稿では,MPCコントローラのオンライン自動チューニングへのアプローチと,エコロジークルーズ制御システムへの例を示す。
我々は、動的プログラミングを用いて、グローバルな燃費最小化問題をオフラインで解決し、対応するMPCコスト関数を求める。
これらのオフライン結果に適合したニューラルネットワークを用いて、オンライン操作中に所望のMPCコスト関数重みを生成する。
論文 参考訳(メタデータ) (2023-09-17T19:49:47Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Bayesian Optimization and Deep Learning forsteering wheel angle
prediction [58.720142291102135]
本研究の目的は,自動走行システムにおける操舵角度予測の精度の高いモデルを得ることである。
BOは限られた試行数で、BOST-LSTMと呼ばれるモデルを特定し、古典的なエンドツーエンド駆動モデルと比較して最も正確な結果を得た。
論文 参考訳(メタデータ) (2021-10-22T15:25:14Z) - Neural Predictive Control for the Optimization of Smart Grid Flexibility
Schedules [0.0]
モデル予測制御(MPC)は,格子フレキシビリティの最適スケジューリング問題を数学的に定式化する手法である。
MPC法は時間制約グリッド最適化の正確な結果を約束するが、大規模で複雑な電力系統モデルに必要な計算時間によって本質的に制限される。
線形及び非線形電力系統の最適制御ポリシーを模倣により学習するニューラルネットワーク予測制御方式を提案する。
論文 参考訳(メタデータ) (2021-08-19T15:12:35Z) - Learning Model-Based Vehicle-Relocation Decisions for Real-Time
Ride-Sharing: Hybridizing Learning and Optimization [15.80796896560034]
大規模なライドシェアリングシステムは、リアルタイムディスパッチとルーティング最適化をローリングタイムの地平線上で組み合わせる。
アイドルカーを移動させて需要を予想するMPCコンポーネントは、より長い時間的地平線上で動作する。
本稿では,機械学習と最適化を組み合わせたハイブリッドアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-27T21:48:05Z) - Optimal Cost Design for Model Predictive Control [30.86835688868485]
多くのロボティクスドメインは、計画に非モデル制御(MPC)を使用し、時間的地平線を減らし、最適化を行い、各ステップで再計画を行う。
本研究では, MPC を用いて最適化するコストは, タスクの真理コスト(端末コスト)と同等である,という一般的な仮定に挑戦する。
連続型MDPにおけるMPC計画ロボットの最適コストを設計できるゼロ階トラジェクトリに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-23T00:00:58Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。