論文の概要: Solving the Pod Repositioning Problem with Deep Reinforced Adaptive Large Neighborhood Search
- arxiv url: http://arxiv.org/abs/2506.02746v1
- Date: Tue, 03 Jun 2025 11:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.603546
- Title: Solving the Pod Repositioning Problem with Deep Reinforced Adaptive Large Neighborhood Search
- Title(参考訳): 深部強化適応型大規模近傍探索によるポッド配置問題の解法
- Authors: Lin Xie, Hanyi Li,
- Abstract要約: Robotic Mobile Fulfillment Systems のPod Repositioning Problem (PRP) では、ピックステーションから戻ってくるポッドの最適な保管場所を選択する。
本研究では,大規模近傍探索(ALNS)と深層強化学習(DRL)を統合した改良型解法を提案する。
DRLエージェントは、破壊修理演算子を動的に選択し、探索中に破壊度や受容閾値などのキーパラメータを調整する。
- 参考スコア(独自算出の注目度): 0.3867363075280544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Pod Repositioning Problem (PRP) in Robotic Mobile Fulfillment Systems (RMFS) involves selecting optimal storage locations for pods returning from pick stations. This work presents an improved solution method that integrates Adaptive Large Neighborhood Search (ALNS) with Deep Reinforcement Learning (DRL). A DRL agent dynamically selects destroy and repair operators and adjusts key parameters such as destruction degree and acceptance thresholds during the search. Specialized heuristics for both operators are designed to reflect PRP-specific characteristics, including pod usage frequency and movement costs. Computational results show that this DRL-guided ALNS outperforms traditional approaches such as cheapest-place, fixed-place, binary integer programming, and static heuristics. The method demonstrates strong solution quality and illustrating the benefit of learning-driven control within combinatorial optimization for warehouse systems.
- Abstract(参考訳): Robotic Mobile Fulfillment Systems (RMFS) のPod Repositioning Problem (PRP) では、ピックステーションから戻ってくるポッドの最適な保管場所を選択する。
本研究では,適応型大規模近傍探索(ALNS)と深層強化学習(DRL)を統合した改良型解法を提案する。
DRLエージェントは、破壊修理演算子を動的に選択し、探索中に破壊度や受容閾値などのキーパラメータを調整する。
両オペレータの特殊なヒューリスティックは、ポッドの使用頻度や移動コストなど、PRP固有の特性を反映するように設計されている。
計算結果によると、このDRL誘導型ALNSは、最安位置、固定位置、バイナリ整数プログラミング、静的ヒューリスティックスといった従来の手法よりも優れている。
本手法は, 倉庫システムの組合せ最適化における学習駆動制御の利点を示す。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Deep Reinforcement Learning for Dynamic Order Picking in Warehouse Operations [0.6116681488656472]
本研究は,現代の倉庫管理において重要な課題である動的順序決定問題に対処する。
本稿では,自律的なピックアップ装置を備えた単ブロック倉庫に適したDeep Reinforcement Learningフレームワークを提案する。
動的にピッカー経路を最適化することにより、注文のスループット時間と未充足注文を著しく削減する。
論文 参考訳(メタデータ) (2024-08-03T03:56:46Z) - Reinforcement learning for anisotropic p-adaptation and error estimation in high-order solvers [0.37109226820205005]
強化学習(RL)を用いた高次h/pにおける異方性p適応の自動化と最適化のための新しい手法を提案する。
我々は,シミュレーションを行う際の最小限のオーバーコストを示す,主解法から切り離されたオフライントレーニング手法を開発した。
我々は、局所的な離散化誤差の定量化を可能にする、安価なRLベースの誤差推定手法を導出する。
論文 参考訳(メタデータ) (2024-07-26T17:55:23Z) - Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality [55.06411438416805]
制約付きマルコフ決定プロセス(CMDP)は、多くの高度な応用において重要である。
本稿では,パラメトリックアクターポリシーを効率的に訓練するための2段階深度決定規則(TS-DDR)を提案する。
現状の手法と比較して, 解の質を高め, 数桁の計算時間を削減できることが示されている。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。
現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。
本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文 参考訳(メタデータ) (2024-03-31T09:25:28Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Distributed Multi-agent Meta Learning for Trajectory Design in Wireless
Drone Networks [151.27147513363502]
本稿では,動的無線ネットワーク環境で動作するエネルギー制約型ドローン群に対する軌道設計の問題点について検討する。
値ベース強化学習(VDRL)ソリューションとメタトレイン機構を提案する。
論文 参考訳(メタデータ) (2020-12-06T01:30:12Z) - Robust Optimal Transport with Applications in Generative Modeling and
Domain Adaptation [120.69747175899421]
ワッサーシュタインのような最適輸送(OT)距離は、GANやドメイン適応のようないくつかの領域で使用されている。
本稿では,現代のディープラーニングアプリケーションに適用可能な,ロバストなOT最適化の計算効率のよい2つの形式を提案する。
提案手法では, ノイズの多いデータセット上で, 外部分布で劣化したGANモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-10-12T17:13:40Z) - Stacked Auto Encoder Based Deep Reinforcement Learning for Online
Resource Scheduling in Large-Scale MEC Networks [44.40722828581203]
オンラインリソーススケジューリングフレームワークは、IoT(Internet of Things)の全ユーザに対して、重み付けされたタスクレイテンシの総和を最小化するために提案されている。
以下を含む深層強化学習(DRL)に基づく解法を提案する。
DRLがポリシーネットワークをトレーニングし、最適なオフロードポリシーを見つけるのを支援するために、保存および優先されたエクスペリエンスリプレイ(2p-ER)を導入する。
論文 参考訳(メタデータ) (2020-01-24T23:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。