論文の概要: Reinforcement Learning for Freight Booking Control Problems
- arxiv url: http://arxiv.org/abs/2102.00092v3
- Date: Wed, 5 Apr 2023 00:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 17:11:16.432050
- Title: Reinforcement Learning for Freight Booking Control Problems
- Title(参考訳): 貨物予約制御問題に対する強化学習
- Authors: Justin Dumouchelle, Emma Frejinger, Andrea Lodi
- Abstract要約: 予約管理問題は、収益管理におけるシーケンシャルな意思決定問題である。
我々は,運用課題の目的を予測するために教師付き学習モデルを訓練する。
次に、制御ポリシを計算するために強化学習アルゴリズム内にモデルをデプロイする。
- 参考スコア(独自算出の注目度): 5.08128537391027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Booking control problems are sequential decision-making problems that occur
in the domain of revenue management. More precisely, freight booking control
focuses on the problem of deciding to accept or reject bookings: given a
limited capacity, accept a booking request or reject it to reserve capacity for
future bookings with potentially higher revenue. This problem can be formulated
as a finite-horizon stochastic dynamic program, where accepting a set of
requests results in a profit at the end of the booking period that depends on
the cost of fulfilling the accepted bookings. For many freight applications,
the cost of fulfilling requests is obtained by solving an operational
decision-making problem, which often requires the solutions to mixed-integer
linear programs. Routinely solving such operational problems when deploying
reinforcement learning algorithms may be too time consuming. The majority of
booking control policies are obtained by solving problem-specific mathematical
programming relaxations that are often non-trivial to generalize to new
problems and, in some cases, provide quite crude approximations.
In this work, we propose a two-phase approach: we first train a supervised
learning model to predict the objective of the operational problem, and then we
deploy the model within reinforcement learning algorithms to compute control
policies. This approach is general: it can be used every time the objective
function of the end-of-horizon operational problem can be predicted, and it is
particularly suitable to those cases where such problems are computationally
hard. Furthermore, it allows one to leverage the recent advances in
reinforcement learning as routinely solving the operational problem is replaced
with a single prediction. Our methodology is evaluated on two booking control
problems in the literature, namely, distributional logistics and airline cargo
management.
- Abstract(参考訳): 予約制御問題は、収益管理の領域で発生したシーケンシャルな意思決定問題である。
より正確には、貨物の予約管理は、予約を受理するか拒否するかを決める問題に焦点を当てている。
この問題は有限水平確率動的プログラムとして定式化することができ、一連の要求を受け入れると、受理された予約のコストに依存する予約期間の終わりに利益が得られる。
多くの貨物アプリケーションでは、要求を満たすコストは運用上の意思決定問題を解決することで得られるが、これはしばしば混合整数線形プログラムの解を必要とする。
強化学習アルゴリズムをデプロイする際の運用上の問題を定期的に解決するには時間がかかりすぎる可能性がある。
予約制御政策の大多数は、問題固有の数学的プログラミング緩和を解くことで得られ、これはしばしば新しい問題に一般化し、場合によっては非常に粗い近似を与える。
本研究では,まず,運用課題の目的を予測するために教師付き学習モデルを訓練し,そのモデルを強化学習アルゴリズム内に展開し,制御ポリシを演算する2段階のアプローチを提案する。
このアプローチは一般に、水平方向の運用問題の目的関数を予測できるたびに使用でき、そのような問題が計算的に困難である場合に特に適している。
さらに、運用問題を解決するルーチンが単一の予測に置き換えられるため、強化学習の最近の進歩を活用できる。
本手法は, 分散ロジスティクスと航空貨物管理という, 文献における2つの予約制御問題に対して評価する。
関連論文リスト
- Zero-shot Generalization in Inventory Management: Train, then Estimate and Decide [0.0]
現実世界の在庫管理における深層強化学習(DRL)の展開が課題となっている。
これらの課題は研究のギャップを浮き彫りにして、パラメータの不確実性の下でのシーケンシャルな意思決定をモデル化し解決するための統一フレームワークの必要性を示唆している。
我々は、在庫管理のためのDRLの未探索領域を探索し、ゼロショット一般化(ZSG)の下での一般有能エージェント(GCAs)の訓練に対処する。
論文 参考訳(メタデータ) (2024-11-01T11:20:05Z) - Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - Predicting Probabilities of Error to Combine Quantization and Early Exiting: QuEE [68.6018458996143]
本稿では,量子化と早期出口動的ネットワークを組み合わせたより一般的な動的ネットワークQuEEを提案する。
我々のアルゴリズムは、ソフトアーリーエグジットや入力依存圧縮の一形態と見なすことができる。
提案手法の重要な要素は、さらなる計算によって実現可能な潜在的な精度向上の正確な予測である。
論文 参考訳(メタデータ) (2024-06-20T15:25:13Z) - Learning with Posterior Sampling for Revenue Management under Time-varying Demand [36.22276574805786]
価格設定項目やサービスによる収益を最大化するための収益管理問題について議論する。
この問題の1つの課題は、需要分布が未知であり、航空会社や小売業のような実際の応用において時間とともに変化することである。
論文 参考訳(メタデータ) (2024-05-08T09:28:26Z) - Model-Based Reinforcement Learning Control of Reaction-Diffusion
Problems [0.0]
強化学習はいくつかのアプリケーション、特にゲームにおいて意思決定に応用されている。
輸送されたフィールドの流れを駆動する2つの新しい報酬関数を導入する。
その結果、これらのアプリケーションで特定の制御をうまく実装できることが判明した。
論文 参考訳(メタデータ) (2024-02-22T11:06:07Z) - Successive Refinement in Large-Scale Computation: Advancing Model
Inference Applications [67.76749044675721]
階層化分解能計算の解を導入する。
これらの解により、最終結果よりも早い段階でより解像度の低い結果が得られる。
論文 参考訳(メタデータ) (2024-02-11T15:36:33Z) - Attention-based Reinforcement Learning for Combinatorial Optimization: Application to Job Shop Scheduling Problem [2.024210754085351]
本研究では,ジョブショップスケジューリング問題に特化して設計された,革新的な注意力に基づく強化学習手法を提案する。
この研究の鍵となる発見は、提案手法で訓練を受けた学習者が、初期訓練セットに含まれない大規模問題に再利用できることである。
論文 参考訳(メタデータ) (2024-01-29T21:31:54Z) - An End-to-End Reinforcement Learning Approach for Job-Shop Scheduling
Problems Based on Constraint Programming [5.070542698701157]
本稿では,CPと強化学習(Reinforcement Learning, RL)を用いてスケジューリング問題を解決する新しいエンドツーエンドアプローチを提案する。
当社のアプローチでは,既存のCPソルバを活用して,プライオリティ・ディスパッチ・ルール(PDR)を学ぶエージェントをトレーニングする。
論文 参考訳(メタデータ) (2023-06-09T08:24:56Z) - A Universal Error Measure for Input Predictions Applied to Online Graph
Problems [57.58926849872494]
本稿では,入力予測における誤差の定量化のための新しい尺度を提案する。
この尺度は、予測されていない要求と予測されていない実際の要求によるエラーをキャプチャする。
論文 参考訳(メタデータ) (2022-05-25T15:24:03Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Probably Approximately Correct Constrained Learning [135.48447120228658]
我々は、ほぼ正しい学習フレームワーク(PAC)に基づく一般化理論を開発する。
PAC学習可能なクラスも制約のある学習者であるという意味では,学習者の導入は学習問題を難しくするものではないことを示す。
このソリューションの特性を分析し,制約付き学習が公平でロバストな分類における問題にどのように対処できるかを説明する。
論文 参考訳(メタデータ) (2020-06-09T19:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。