論文の概要: Learning to Search for Job Shop Scheduling via Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2211.10936v1
- Date: Sun, 20 Nov 2022 10:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:30:00.565598
- Title: Learning to Search for Job Shop Scheduling via Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習によるジョブショップスケジューリングの探索
- Authors: Cong Zhang, Wen Song, Zhiguang Cao, Jie Zhang, Puay Siew Tan, Chi Xu
- Abstract要約: 本稿では,完全解の符号化にグラフ表現を用いるJSSPの改良を学習するためのDRLに基づく新しい手法を提案する。
改善中のソリューション評価を高速化するために,複数のソリューションを同時に評価できる新しいメッセージパッシング機構を設計する。
- 参考スコア(独自算出の注目度): 18.21524307131272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies in using deep reinforcement learning (DRL) to solve Job-shop
scheduling problems (JSSP) focus on construction heuristics. However, their
performance is still far from optimality, mainly because the underlying graph
representation scheme is unsuitable for modeling partial solutions at each
construction step. This paper proposes a novel DRL-based method to learn
improvement heuristics for JSSP, where graph representation is employed to
encode complete solutions. We design a Graph Neural Network based
representation scheme, consisting of two modules to effectively capture the
information of dynamic topology and different types of nodes in graphs
encountered during the improvement process. To speed up solution evaluation
during improvement, we design a novel message-passing mechanism that can
evaluate multiple solutions simultaneously. Extensive experiments on classic
benchmarks show that the improvement policy learned by our method outperforms
state-of-the-art DRL-based methods by a large margin.
- Abstract(参考訳): ジョブショップスケジューリング問題(JSSP)を解決するための深層強化学習(DRL)の最近の研究は、建設ヒューリスティックスに焦点を当てている。
しかし、基礎となるグラフ表現スキームは各構成ステップで部分解のモデリングに適さないため、その性能は依然として最適とは程遠い。
本稿では,完全解の符号化にグラフ表現を用いるJSSPの改良ヒューリスティックスを学習するためのDRLに基づく新しい手法を提案する。
本研究では,2つのモジュールからなるグラフニューラルネットワークに基づく表現スキームの設計を行い,改善プロセス中に遭遇したグラフの動的トポロジ情報と異なるノードの種類を効果的に把握する。
改善中のソリューション評価を高速化するために,複数のソリューションを同時に評価できる新しいメッセージパッシング機構を設計する。
従来のベンチマーク実験により,本手法で得られた改善方針は,最先端のDRL法よりも大きなマージンで優れていることが示された。
関連論文リスト
- Offline reinforcement learning for job-shop scheduling problems [1.3927943269211593]
本稿では,複雑な制約を伴う最適化問題に対して,新しいオフラインRL法を提案する。
我々のアプローチは、エッジ属性のアクションを符号化し、専門家ソリューションの模倣と期待される報酬のバランスをとる。
本手法がジョブショップスケジューリングおよびフレキシブルジョブショップスケジューリングベンチマークに与える影響を実証する。
論文 参考訳(メタデータ) (2024-10-21T07:33:42Z) - Reinforcement Learning as an Improvement Heuristic for Real-World Production Scheduling [0.0]
1つの有望なアプローチは、RLエージェントを改善として訓練することであり、小さな変更を適用することで反復的に改善される最適以下のソリューションから始まる。
本手法を実世界の多目的生産スケジューリング問題に適用する。
当社のアプローチを、業界パートナの本当のデータを使って、他のアプローチと比較し、その優れたパフォーマンスを実証しました。
論文 参考訳(メタデータ) (2024-09-18T12:48:56Z) - Learning-enabled Flexible Job-shop Scheduling for Scalable Smart
Manufacturing [11.509669981978874]
スマートマニュファクチャリングシステムでは、生産性を最大化するためのソリューションを最適化するために、輸送制約付きフレキシブルなジョブショップスケジューリングが不可欠である。
近年, 深部強化学習(DRL)に基づくFJSPT法の開発が, 大規模一般化の課題に直面している。
Heterogeneous Graph Scheduler (HGS) と呼ばれる新しいグラフベースのDRL法を導入する。
論文 参考訳(メタデータ) (2024-02-14T06:49:23Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A Bi-Level Framework for Learning to Solve Combinatorial Optimization on
Graphs [91.07247251502564]
本稿では,2つの世界の長所を結合するハイブリッドな手法を提案する。この手法では,グラフを最適化する上層学習手法とバイレベルフレームワークを開発する。
このような二段階のアプローチは、元のハードCOでの学習を単純化し、モデルキャパシティの需要を効果的に軽減することができる。
論文 参考訳(メタデータ) (2021-06-09T09:18:18Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z) - Graph-based State Representation for Deep Reinforcement Learning [1.5901689240516976]
基礎となるマルコフ決定プロセス(MDP)がグラフを表現しているという事実を利用して、このトポロジ情報を有効状態表現学習に組み込むことができる。
近年のグラフ解析タスクにおけるノード表現の成功により,ノード表現学習手法が深部RLにおける基礎となるMDPのトポロジを効果的にエンコードする能力について検討した。
その結果,すべての埋め込み手法が,グリッドワールド環境の一般的な行列表現よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-29T05:43:15Z) - Graph Ordering: Towards the Optimal by Learning [69.72656588714155]
グラフ表現学習は、ノード分類、予測、コミュニティ検出など、多くのグラフベースのアプリケーションで顕著な成功を収めている。
しかし,グラフ圧縮やエッジ分割などのグラフアプリケーションでは,グラフ表現学習タスクに還元することは極めて困難である。
本稿では,このようなアプリケーションの背後にあるグラフ順序付け問題に対して,新しい学習手法を用いて対処することを提案する。
論文 参考訳(メタデータ) (2020-01-18T09:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。