論文の概要: A Reinforcement Learning Environment For Job-Shop Scheduling
- arxiv url: http://arxiv.org/abs/2104.03760v1
- Date: Thu, 8 Apr 2021 13:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 19:37:02.460638
- Title: A Reinforcement Learning Environment For Job-Shop Scheduling
- Title(参考訳): ジョブショップスケジューリングのための強化学習環境
- Authors: Pierre Tassel, Martin Gebser, Konstantin Schekotihin
- Abstract要約: 本稿では,ジョブショップスケジューリングのための高効率深層強化学習環境を提案する。
我々は、有意義でコンパクトな状態表現と、新しい単純な密集した報酬関数を設計する。
本手法が従来のベンチマークインスタンスにおける既存のDRLメソッドを大幅に上回ることを実証した。
- 参考スコア(独自算出の注目度): 2.036811219647753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scheduling is a fundamental task occurring in various automated systems
applications, e.g., optimal schedules for machines on a job shop allow for a
reduction of production costs and waste. Nevertheless, finding such schedules
is often intractable and cannot be achieved by Combinatorial Optimization
Problem (COP) methods within a given time limit. Recent advances of Deep
Reinforcement Learning (DRL) in learning complex behavior enable new COP
application possibilities. This paper presents an efficient DRL environment for
Job-Shop Scheduling -- an important problem in the field. Furthermore, we
design a meaningful and compact state representation as well as a novel, simple
dense reward function, closely related to the sparse make-span minimization
criteria used by COP methods. We demonstrate that our approach significantly
outperforms existing DRL methods on classic benchmark instances, coming close
to state-of-the-art COP approaches.
- Abstract(参考訳): スケジューリングは、様々な自動化システムアプリケーションで発生する基本的なタスクである。例えば、ジョブショップのマシンの最適なスケジュールは、生産コストと無駄を減らすことができる。
それでも、そのようなスケジュールを見つけることはしばしば難解であり、与えられた時間制限内での組合せ最適化問題(COP)法では達成できない。
複雑な振る舞いの学習における深層強化学習(DRL)の最近の進歩は、新しいCOPアプリケーションの可能性を可能にしている。
本稿では,ジョブショップスケジューリングのための効率的なDRL環境を提案する。
さらに,cop法で用いられるスパースメイクスパン最小化基準と密接に関連した,有意義でコンパクトな状態表現と,新しい,単純な密集した報酬関数を設計する。
提案手法は従来のベンチマークインスタンスのDRLメソッドよりも大幅に優れており,最先端のCOPアプローチに近い。
関連論文リスト
- Offline reinforcement learning for job-shop scheduling problems [1.3927943269211593]
本稿では,複雑な制約を伴う最適化問題に対して,新しいオフラインRL法を提案する。
我々のアプローチは、エッジ属性のアクションを符号化し、専門家ソリューションの模倣と期待される報酬のバランスをとる。
本手法がジョブショップスケジューリングおよびフレキシブルジョブショップスケジューリングベンチマークに与える影響を実証する。
論文 参考訳(メタデータ) (2024-10-21T07:33:42Z) - Learning-enabled Flexible Job-shop Scheduling for Scalable Smart
Manufacturing [11.509669981978874]
スマートマニュファクチャリングシステムでは、生産性を最大化するためのソリューションを最適化するために、輸送制約付きフレキシブルなジョブショップスケジューリングが不可欠である。
近年, 深部強化学習(DRL)に基づくFJSPT法の開発が, 大規模一般化の課題に直面している。
Heterogeneous Graph Scheduler (HGS) と呼ばれる新しいグラフベースのDRL法を導入する。
論文 参考訳(メタデータ) (2024-02-14T06:49:23Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - An End-to-End Reinforcement Learning Approach for Job-Shop Scheduling
Problems Based on Constraint Programming [5.070542698701157]
本稿では,CPと強化学習(Reinforcement Learning, RL)を用いてスケジューリング問題を解決する新しいエンドツーエンドアプローチを提案する。
当社のアプローチでは,既存のCPソルバを活用して,プライオリティ・ディスパッチ・ルール(PDR)を学ぶエージェントをトレーニングする。
論文 参考訳(メタデータ) (2023-06-09T08:24:56Z) - Flexible Job Shop Scheduling via Dual Attention Network Based
Reinforcement Learning [73.19312285906891]
フレキシブルなジョブショップスケジューリング問題(FJSP)では、複数のマシンで操作を処理でき、操作とマシンの間の複雑な関係が生じる。
近年, 深層強化学習(DRL)を用いて, FJSP解決のための優先派遣規則(PDR)を学習している。
本稿では,Deep機能抽出のための自己注意モデルと,スケーラブルな意思決定のためのDRLの利点を生かした,エンドツーエンド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-09T01:35:48Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - A Memetic Algorithm with Reinforcement Learning for Sociotechnical
Production Scheduling [0.0]
本稿では、フレキシブルジョブショップスケジューリング問題(DRC-FJSSP)に深層強化学習(DRL)を適用したメメティックアルゴリズムを提案する。
産業における研究プロジェクトから、フレキシブルマシン、フレキシブルなヒューマンワーカー、作業能力、セットアップと処理操作、材料到着時間、材料製造の請求書の並列タスク、シーケンス依存のセットアップ時間、人間と機械のコラボレーションにおける(一部)自動化タスクを検討する必要性を認識します。
論文 参考訳(メタデータ) (2022-12-21T11:24:32Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - An Efficient Combinatorial Optimization Model Using Learning-to-Rank
Distillation [2.0137632982900207]
本稿では, 高速なランク付けポリシを非定型的, 簡易なモデルに抽出可能な, 学習からランク付けへの蒸留に基づくCOPフレームワークを提案する。
具体的には、近似されたランキング蒸留を用いて、勾配降下によるスコアベースランキングモデルを学習可能にする。
蒸留されたモデルは, それぞれの高性能RLに匹敵する性能を達成できるが, 数倍高速な推算も可能であることを実証する。
論文 参考訳(メタデータ) (2021-12-24T10:52:47Z) - Towards Standardizing Reinforcement Learning Approaches for Stochastic
Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。
既存の研究は、コードが利用できない複雑なシミュレーションに依存している。
から選ぶべきRLの設計の広大な配列があります。
モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文 参考訳(メタデータ) (2021-04-16T16:07:10Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。