論文の概要: Optimizing Empty Container Repositioning and Fleet Deployment via
Configurable Semi-POMDPs
- arxiv url: http://arxiv.org/abs/2207.12509v1
- Date: Mon, 25 Jul 2022 20:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:32:34.389742
- Title: Optimizing Empty Container Repositioning and Fleet Deployment via
Configurable Semi-POMDPs
- Title(参考訳): 構成可能なセミPOMDPによるEmpty Container RepositioningとFleet Deploymentの最適化
- Authors: Riccardo Poiani, Ciprian Stirbu, Alberto Maria Metelli and Marcello
Restelli
- Abstract要約: 本稿では,このような問題をモデル化するための新しいフレームワークであるSemi-POMDPを紹介する。
まず、最適な艦隊配備戦略を近似して環境を構成する2段階の"Conquer & Conquer"(CC)を提供する。
この問題の大規模かつ現実的な事例において、我々のアプローチを検証する。
- 参考スコア(独自算出の注目度): 43.85442587999754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continuous growth of the global economy and markets, resource
imbalance has risen to be one of the central issues in real logistic scenarios.
In marine transportation, this trade imbalance leads to Empty Container
Repositioning (ECR) problems. Once the freight has been delivered from an
exporting country to an importing one, the laden will turn into empty
containers that need to be repositioned to satisfy new goods requests in
exporting countries. In such problems, the performance that any cooperative
repositioning policy can achieve strictly depends on the routes that vessels
will follow (i.e., fleet deployment). Historically, Operation Research (OR)
approaches were proposed to jointly optimize the repositioning policy along
with the fleet of vessels. However, the stochasticity of future supply and
demand of containers, together with black-box and non-linear constraints that
are present within the environment, make these approaches unsuitable for these
scenarios. In this paper, we introduce a novel framework, Configurable
Semi-POMDPs, to model this type of problems. Furthermore, we provide a
two-stage learning algorithm, "Configure & Conquer" (CC), that first configures
the environment by finding an approximation of the optimal fleet deployment
strategy, and then "conquers" it by learning an ECR policy in this tuned
environmental setting. We validate our approach in large and real-world
instances of the problem. Our experiments highlight that CC avoids the pitfalls
of OR methods and that it is successful at optimizing both the ECR policy and
the fleet of vessels, leading to superior performance in world trade
environments.
- Abstract(参考訳): 世界経済と市場の継続的な成長に伴い、資源の不均衡は実際のロジスティックシナリオにおける中心的な問題の一つになってきた。
海上輸送において、この貿易不均衡はEmpty Container Repositioning (ECR)問題につながる。
輸出国から輸入国に輸送された貨物は、輸出国における新商品要求を満たすために再配置される必要がある空のコンテナへと変貌する。
このような問題において、協調的再配置政策が達成できる性能は、船舶が従うルート(すなわち艦隊配備)に厳密に依存する。
歴史的に、作戦研究(OR)アプローチは、艦船群と共に配置方針を最適化するために提案された。
しかしながら、将来的なコンテナの供給と需要の確率性と、環境内に存在するブラックボックスおよび非線形制約により、これらのアプローチはこれらのシナリオに不適当である。
本稿では,このような問題をモデル化するための新しいフレームワークであるConfigurable Semi-POMDPを紹介する。
さらに,2段階学習アルゴリズム"configure & conquer" (cc) を提案し,まず最適な艦隊展開戦略の近似を見出して環境設定を行い,その後,調整された環境環境でecrポリシーを学習して「克服」する。
この問題の大規模かつ現実的な事例において、我々のアプローチを検証する。
実験の結果, CCはOR手法の落とし穴を回避し, ECR政策と船舶艦隊の最適化に成功し, 世界貿易環境における優れた性能を実現していることがわかった。
関連論文リスト
- CROPS: A Deployable Crop Management System Over All Possible State Availabilities [11.831002170207547]
デプロイ可能な textbfCRop 管理システム textbfOver all textbfPossible textbfState Availability (CROPS) を提案する。
論文 参考訳(メタデータ) (2024-11-09T02:06:09Z) - Evaluating Robustness of Reinforcement Learning Algorithms for Autonomous Shipping [2.9109581496560044]
本稿では,自律型海運シミュレータにおける内陸水路輸送(IWT)のために実装されたベンチマークディープ強化学習(RL)アルゴリズムのロバスト性について検討する。
モデルのないアプローチはシミュレーターで適切なポリシーを達成でき、訓練中に遭遇したことのないポート環境をナビゲートすることに成功した。
論文 参考訳(メタデータ) (2024-11-07T17:55:07Z) - Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Online Reinforcement Learning in Non-Stationary Context-Driven
Environments [13.898711495948254]
非定常環境におけるオンライン強化学習(RL)について検討する。
オンラインRLは「破滅的忘れ」 (CF) によってこのような環境において困難である
我々は,従来の経験に則った政策出力を固定することでCFと戦うオンラインRLアプローチであるローカル制約政策最適化(LCPO)を提示する。
論文 参考訳(メタデータ) (2023-02-04T15:31:19Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - A Deep Reinforcement Learning Approach for Constrained Online Logistics
Route Assignment [4.367543599338385]
物流業界にとって、各出荷区画に適切な物流ルートを割り当てる方法が不可欠である。
このオンライン経路割り当て問題は、制約付きオンライン意思決定問題とみなすことができる。
我々はPPO-RAと呼ばれるモデルフリーDRLアプローチを開発し、経路割当(RA)の課題に対処する専用の技術を用いてPPO(Pximal Policy Optimization)を改善した。
論文 参考訳(メタデータ) (2021-09-08T07:27:39Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。