論文の概要: Learning to generalize Dispatching rules on the Job Shop Scheduling
- arxiv url: http://arxiv.org/abs/2206.04423v1
- Date: Thu, 9 Jun 2022 11:25:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:34:11.419643
- Title: Learning to generalize Dispatching rules on the Job Shop Scheduling
- Title(参考訳): ジョブショップスケジューリングにおける分散ルールの一般化
- Authors: Zangir Iklassov, Dmitrii Medvedev, Ruben Solozabal, Martin Takac
- Abstract要約: 本稿では、ジョブショップスケジューリング問題(JSP)におけるディスパッチルールをより一般化するための強化学習手法を提案する。
平均最適性ギャップは、タラードの場合19.35%から10.46%、デミルコールの場合38.43%から18.85%に減少する。
- 参考スコア(独自算出の注目度): 0.27528170226206433
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a Reinforcement Learning approach to better generalize
heuristic dispatching rules on the Job-shop Scheduling Problem (JSP). Current
models on the JSP do not focus on generalization, although, as we show in this
work, this is key to learning better heuristics on the problem. A well-known
technique to improve generalization is to learn on increasingly complex
instances using Curriculum Learning (CL). However, as many works in the
literature indicate, this technique might suffer from catastrophic forgetting
when transferring the learned skills between different problem sizes. To
address this issue, we introduce a novel Adversarial Curriculum Learning (ACL)
strategy, which dynamically adjusts the difficulty level during the learning
process to revisit the worst-performing instances. This work also presents a
deep learning model to solve the JSP, which is equivariant w.r.t. the job
definition and size-agnostic. Conducted experiments on Taillard's and
Demirkol's instances show that the presented approach significantly improves
the current state-of-the-art models on the JSP. It reduces the average
optimality gap from 19.35\% to 10.46\% on Taillard's instances and from 38.43\%
to 18.85\% on Demirkol's instances. Our implementation is available online.
- Abstract(参考訳): 本稿では,ジョブショップスケジューリング問題(jsp)に対するヒューリスティックディスパッチルールをより一般化するための強化学習手法を提案する。
現在のJSPのモデルは一般化に重点を置いていないが、この研究で示されているように、この問題に関するより優れたヒューリスティックスを学ぶ上で鍵となる。
一般化を改善するためのよく知られたテクニックは、Curriculum Learning (CL)を使ってますます複雑なインスタンスを学ぶことである。
しかし、多くの文献が示すように、この技法は、異なる問題サイズ間で学習スキルを移す際に、破滅的な忘れに苦しむ可能性がある。
この問題に対処するために,我々は,学習プロセス中の難易度を動的に調整し,最悪のパフォーマンスのインスタンスを再検討する,新しいACL戦略を導入する。
この研究は、ジョブ定義とサイズに依存しない等式であるJSPを解くためのディープラーニングモデルも提示する。
タラードとデミルコールの事例に関する実験により、提案されたアプローチはJSPの現在の最先端モデルを大幅に改善することを示した。
平均最適性ギャップは、タラードの場合19.35\%から10.46\%、デミルコールの場合38.43\%から18.85\%に減少する。
私たちの実装はオンラインで利用可能です。
関連論文リスト
- Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Residual Scheduling: A New Reinforcement Learning Approach to Solving
Job Shop Scheduling Problem [8.398387430247201]
ジョブショップスケジューリング問題(Job-shop scheduling problem、JSP)は、製造業などで広く使われている数学最適化問題である。
本稿では,FJSPの解法に対する残差スケジューリングという新しい手法を提案する。
20台のマシンで150以上のジョブ数を持つ50のインスタンスで49のギャップに到達しています。
論文 参考訳(メタデータ) (2023-09-27T09:33:56Z) - Curriculum Learning in Job Shop Scheduling using Reinforcement Learning [0.3867363075280544]
深層強化学習(DRL)は、困難な事例に対応するエージェントの計画戦略を動的に調整する。
学習プロセスの設計に,同じ問題サイズ内での難易度の変数を積極的に組み込むことにより,基礎的手法としてのDLRをさらに改善する。
論文 参考訳(メタデータ) (2023-05-17T13:15:27Z) - SLCA: Slow Learner with Classifier Alignment for Continual Learning on a
Pre-trained Model [73.80068155830708]
予備学習モデル(CLPM)を用いた連続学習のための広範囲な解析法を提案する。
Slow Learner with Alignment (SLCA) というシンプルなアプローチを提案する。
さまざまなシナリオにおいて、私たちの提案はCLPMの大幅な改善を提供します。
論文 参考訳(メタデータ) (2023-03-09T08:57:01Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - An actor-critic algorithm with policy gradients to solve the job shop
scheduling problem using deep double recurrent agents [1.3812010983144802]
ジョブショップスケジューリング問題(JSSP)に対する深層強化学習手法を提案する。
目的は、ジョブやマシンの数によって異なるJSSPインスタンスのディストリビューションについて学べるgreedyのようなものを構築することである。
予想通り、モデルはある程度は、トレーニングで使用されるものと異なる分布から生じるより大きな問題やインスタンスに一般化することができる。
論文 参考訳(メタデータ) (2021-10-18T07:55:39Z) - Rectification-based Knowledge Retention for Continual Learning [49.1447478254131]
ディープラーニングモデルは、インクリメンタルな学習環境で訓練されたときに壊滅的な忘れに苦しむ。
タスクインクリメンタル学習問題に対処するための新しいアプローチを提案する。これは、インクリメンタルに到着する新しいタスクに関するモデルをトレーニングすることを含む。
私たちのアプローチは、ゼロショットと非ゼロショットタスクインクリメンタルラーニング設定の両方で使用できます。
論文 参考訳(メタデータ) (2021-03-30T18:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。