論文の概要: Storehouse: a Reinforcement Learning Environment for Optimizing
Warehouse Management
- arxiv url: http://arxiv.org/abs/2207.03851v1
- Date: Fri, 8 Jul 2022 12:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 10:04:38.613867
- Title: Storehouse: a Reinforcement Learning Environment for Optimizing
Warehouse Management
- Title(参考訳): storehouse: 倉庫管理を最適化するための強化学習環境
- Authors: Julen Cestero, Marco Quartulli, Alberto Maria Metelli, Marcello
Restelli
- Abstract要約: ストアハウスは、強化学習のための倉庫シミュレーションの定義を一般化するカスタマイズ可能な環境である。
我々は、この環境を最先端の強化学習アルゴリズムに対して検証し、その結果を人的・ランダムなポリシーと比較する。
- 参考スコア(独自算出の注目度): 40.32303434592863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Warehouse Management Systems have been evolving and improving thanks to new
Data Intelligence techniques. However, many current optimizations have been
applied to specific cases or are in great need of manual interaction. Here is
where Reinforcement Learning techniques come into play, providing
automatization and adaptability to current optimization policies. In this
paper, we present Storehouse, a customizable environment that generalizes the
definition of warehouse simulations for Reinforcement Learning. We also
validate this environment against state-of-the-art reinforcement learning
algorithms and compare these results to human and random policies.
- Abstract(参考訳): Warehouse Management Systemsは、新しいデータインテリジェンス技術のおかげで、進化と改善を続けている。
しかし、現在の多くの最適化は特定のケースに適用されたり、手動の相互作用を非常に必要としている。
強化学習技術が活躍し、現在の最適化ポリシーに自動化と適応性を提供します。
本稿では,強化学習のための倉庫シミュレーションの定義を一般化する,カスタマイズ可能な環境であるStorehouseを提案する。
また、この環境を最先端強化学習アルゴリズムに対して検証し、その結果を人間とランダムのポリシーと比較する。
関連論文リスト
- Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization [5.590976834881065]
我々は、在庫管理が深層強化学習(DRL)アルゴリズムを確実に適用し、評価するユニークな機会であると主張している。
ひとつはHendsight Differentiable Policy Optimization (HDPO)で、政策性能を最適化するために勾配降下を行う。
第2の手法は、ポリシー(神経)ネットワーク構造と在庫ネットワークの構造を整合させることである。
論文 参考訳(メタデータ) (2023-06-20T02:58:25Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Instance Weighted Incremental Evolution Strategies for Reinforcement
Learning in Dynamic Environments [11.076005074172516]
本研究では,動的環境における進化戦略(ES)の体系的漸進学習手法を提案する。
目標は、環境が変わるたびに、学習済みのポリシーを新しいポリシーに漸進的に調整することだ。
本稿では、動的環境への高速な学習適応を実現するため、RLドメインのためのスケーラブルなESアルゴリズムのファミリーを紹介する。
論文 参考訳(メタデータ) (2020-10-09T14:31:44Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z) - Lane-Merging Using Policy-based Reinforcement Learning and
Post-Optimization [0.0]
政策に基づく強化学習と局所最適化を組み合わせることで,2つの方法論のベストプラクティスを育成,合成する。
車両数の異なる車線変更シナリオを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-06T12:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。