論文の概要: Learning to Solve the Min-Max Mixed-Shelves Picker-Routing Problem via Hierarchical and Parallel Decoding
- arxiv url: http://arxiv.org/abs/2502.10233v1
- Date: Fri, 14 Feb 2025 15:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:05.957914
- Title: Learning to Solve the Min-Max Mixed-Shelves Picker-Routing Problem via Hierarchical and Parallel Decoding
- Title(参考訳): 階層型および並列デコーディングによる最小混合棚ピッカールーティング問題の解法
- Authors: Laurin Luttmann, Lin Xie,
- Abstract要約: 混合棚ピッカールーティング問題(MSPRP)はロジスティクスにおける基本的な課題であり、ピッカーはSKUを効率的に回収するために混合棚環境をナビゲートする必要がある。
マルチエージェント強化学習により,MSPRPのmin-max変異を解くための新しい階層的並列デコーディング手法を提案する。
実験では、特に大規模およびアウト・オブ・ディストリビューションインスタンスにおいて、ソリューションの品質と推論速度の両方で最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 0.3867363075280544
- License:
- Abstract: The Mixed-Shelves Picker Routing Problem (MSPRP) is a fundamental challenge in warehouse logistics, where pickers must navigate a mixed-shelves environment to retrieve SKUs efficiently. Traditional heuristics and optimization-based approaches struggle with scalability, while recent machine learning methods often rely on sequential decision-making, leading to high solution latency and suboptimal agent coordination. In this work, we propose a novel hierarchical and parallel decoding approach for solving the min-max variant of the MSPRP via multi-agent reinforcement learning. While our approach generates a joint distribution over agent actions, allowing for fast decoding and effective picker coordination, our method introduces a sequential action selection to avoid conflicts in the multi-dimensional action space. Experiments show state-of-the-art performance in both solution quality and inference speed, particularly for large-scale and out-of-distribution instances. Our code is publicly available at http://github.com/LTluttmann/marl4msprp.
- Abstract(参考訳): 混合棚ピッカールーティング問題(MSPRP)は倉庫のロジスティクスにおいて基本的な課題であり、ピッカーはSKUを効率的に回収するために混合棚環境をナビゲートする必要がある。
従来のヒューリスティックスと最適化ベースのアプローチはスケーラビリティに苦慮するが、最近の機械学習手法はしばしばシーケンシャルな意思決定に依存しており、ソリューションのレイテンシとサブ最適エージェントの調整につながる。
本研究では,MSPRPのmin-max変種をマルチエージェント強化学習により解くための,新しい階層的並列デコーディング手法を提案する。
提案手法では, エージェント動作に対する結合分布が生成され, 高速な復号化と効果的なピッカー調整が可能となるが, 多次元動作空間における競合を回避するために, 逐次的な動作選択を導入する。
実験では、特に大規模およびアウト・オブ・ディストリビューションインスタンスにおいて、ソリューションの品質と推論速度の両方で最先端のパフォーマンスを示す。
私たちのコードはhttp://github.com/LTluttmann/marl4msprp.comで公開されています。
関連論文リスト
- O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である
協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。
我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文 参考訳(メタデータ) (2025-01-31T08:08:20Z) - Parallel AutoRegressive Models for Multi-Agent Combinatorial Optimization [17.392822956504848]
マルチエージェントタスクのための高品質なソリューションを効率的に構築するための強化学習フレームワークを提案する。
PARCOは,(1)並列ソリューション構築において効果的なエージェント協調を可能にするトランスフォーマーベースの通信層,(2)低レイテンシ,並列エージェント決定のためのマルチポインタ機構,(3)優先度ベースのコンフリクトハンドラの3つの重要なコンポーネントを統合する。
提案手法が最先端の学習手法より優れているマルチエージェント車両ルーティングおよびスケジューリング問題においてPARCOを評価し,強力な一般化能力と計算効率を示す。
論文 参考訳(メタデータ) (2024-09-05T17:49:18Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding [18.06081009550052]
MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。
いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。
優先度付きハイブリッドポリシ(EPH)を組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:47:12Z) - A Novel Point-based Algorithm for Multi-agent Control Using the Common
Information Approach [8.733794945008562]
コーディネータの探索値(CHSVI)と呼ばれるマルチエージェント制御問題に対する新しいアルゴリズムを提案する。
このアルゴリズムは、大規模なアクション空間に対するCIアプローチとポイントベースのPOMDPアルゴリズムを組み合わせたものである。
いくつかのベンチマーク問題を最適に解くことでアルゴリズムを実証する。
論文 参考訳(メタデータ) (2023-04-10T01:27:43Z) - Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Decentralised Approach for Multi Agent Path Finding [6.599344783327053]
MAPF (Multi Agent Path Finding) は、空間的に拡張されたエージェントに対する競合のない経路の同定を必要とする。
これらは、Convoy Movement ProblemやTraning Schedulingといった現実世界の問題に適用できる。
提案手法であるDecentralized Multi Agent Path Finding (DeMAPF) は、MAPFを経路計画と割り当ての問題の系列として扱う。
論文 参考訳(メタデータ) (2021-06-03T18:07:26Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。