論文の概要: Curriculum Learning in Job Shop Scheduling using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.10192v1
- Date: Wed, 17 May 2023 13:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:59:09.950991
- Title: Curriculum Learning in Job Shop Scheduling using Reinforcement Learning
- Title(参考訳): 強化学習を用いた求人スケジューリングにおけるカリキュラム学習
- Authors: Constantin Waubert de Puiseau, Hasan Tercan, Tobias Meisen
- Abstract要約: 深層強化学習(DRL)は、困難な事例に対応するエージェントの計画戦略を動的に調整する。
学習プロセスの設計に,同じ問題サイズ内での難易度の変数を積極的に組み込むことにより,基礎的手法としてのDLRをさらに改善する。
- 参考スコア(独自算出の注目度): 0.3867363075280544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving job shop scheduling problems (JSSPs) with a fixed strategy, such as a
priority dispatching rule, may yield satisfactory results for several problem
instances but, nevertheless, insufficient results for others. From this
single-strategy perspective finding a near optimal solution to a specific JSSP
varies in difficulty even if the machine setup remains the same. A recent
intensively researched and promising method to deal with difficulty variability
is Deep Reinforcement Learning (DRL), which dynamically adjusts an agent's
planning strategy in response to difficult instances not only during training,
but also when applied to new situations. In this paper, we further improve DLR
as an underlying method by actively incorporating the variability of difficulty
within the same problem size into the design of the learning process. We base
our approach on a state-of-the-art methodology that solves JSSP by means of DRL
and graph neural network embeddings. Our work supplements the training routine
of the agent by a curriculum learning strategy that ranks the problem instances
shown during training by a new metric of problem instance difficulty. Our
results show that certain curricula lead to significantly better performances
of the DRL solutions. Agents trained on these curricula beat the top
performance of those trained on randomly distributed training data, reaching
3.2% shorter average makespans.
- Abstract(参考訳): 優先順位ディスパッチルールのような固定戦略によるジョブショップスケジューリング問題(jssp)の解決は、いくつかの問題例で十分な結果をもたらすが、それでも他のケースでは不十分である。
この単一戦略の観点から、特定のJSSPに対するほぼ最適解を見つけることは、たとえマシンの設定が同じであっても困難である。
難易度に対処するための近年,集中的に研究され,有望な手法として深層強化学習(DRL, Deep Reinforcement Learning)があり,これは訓練中だけでなく,新たな状況に適用する場合にも,エージェントの計画戦略を動的に調整するものである。
本稿では,同じ問題の大きさの難易度を学習プロセスの設計に積極的に組み込むことにより,基礎的手法としてのDLRをさらに改良する。
我々は、DRLとグラフニューラルネットワークの埋め込みを用いてJSSPを解く最先端の方法論に基づくアプローチを提案する。
本研究は,学習中に提示される問題事例を,問題事例の難易度の新しい尺度でランク付けするカリキュラム学習戦略によって,エージェントのトレーニングルーチンを補完するものである。
以上の結果から,DRLソリューションの性能は極めて良好であることが示唆された。
これらのカリキュラムで訓練されたエージェントは、ランダムに分散したトレーニングデータで訓練されたエージェントの最高パフォーマンスを破り、平均メイクパンを3.2%短縮した。
関連論文リスト
- On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - An actor-critic algorithm with policy gradients to solve the job shop
scheduling problem using deep double recurrent agents [1.3812010983144802]
ジョブショップスケジューリング問題(JSSP)に対する深層強化学習手法を提案する。
目的は、ジョブやマシンの数によって異なるJSSPインスタンスのディストリビューションについて学べるgreedyのようなものを構築することである。
予想通り、モデルはある程度は、トレーニングで使用されるものと異なる分布から生じるより大きな問題やインスタンスに一般化することができる。
論文 参考訳(メタデータ) (2021-10-18T07:55:39Z) - A Novel Automated Curriculum Strategy to Solve Hard Sokoban Planning
Instances [30.32386551923329]
本稿では,1つの難題を解決するためのカリキュラム駆動型学習手法を提案する。
タスクの硬さの滑らかさが最終学習結果にどのように影響するかを示す。
われわれのアプローチは、これまでの最先端のSokobanソルバには及ばないプランを明らかにすることができる。
論文 参考訳(メタデータ) (2021-10-03T00:44:50Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - Curriculum Learning with Diversity for Supervised Computer Vision Tasks [1.5229257192293197]
本稿では,学習データの多様性と入力の難しさを考慮に入れた,新たなカリキュラムサンプリング戦略を提案する。
我々は、我々の戦略が不均衡なデータセットに対して非常に効率的であることを証明し、より高速な収束とより正確な結果をもたらす。
論文 参考訳(メタデータ) (2020-09-22T15:32:49Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。