論文の概要: A Reinforcement Learning Approach for Scheduling Problems With Improved
Generalization Through Order Swapping
- arxiv url: http://arxiv.org/abs/2302.13941v1
- Date: Mon, 27 Feb 2023 16:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 14:52:57.377008
- Title: A Reinforcement Learning Approach for Scheduling Problems With Improved
Generalization Through Order Swapping
- Title(参考訳): 順序スワッピングによる一般化によるスケジューリング問題に対する強化学習アプローチ
- Authors: Deepak Vivekanandan, Samuel Wirth, Patrick Karlbauer, Noah Klarmann
- Abstract要約: JSSP は NP-hard COP のカテゴリに分類される。
近年,COPの解法にDRLを用いる研究が注目され,解の質や計算効率の面で有望な結果が示されている。
特に、制約されたジョブのディスパッチにおいてよく機能すると考えられるポリシ・グラディエントパラダイムを採用するPPOアルゴリズムを採用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The scheduling of production resources (such as associating jobs to machines)
plays a vital role for the manufacturing industry not only for saving energy
but also for increasing the overall efficiency. Among the different job
scheduling problems, the JSSP is addressed in this work. JSSP falls into the
category of NP-hard COP, in which solving the problem through exhaustive search
becomes unfeasible. Simple heuristics such as FIFO, LPT and metaheuristics such
as Taboo search are often adopted to solve the problem by truncating the search
space. The viability of the methods becomes inefficient for large problem sizes
as it is either far from the optimum or time consuming. In recent years, the
research towards using DRL to solve COP has gained interest and has shown
promising results in terms of solution quality and computational efficiency. In
this work, we provide an novel approach to solve the JSSP examining the
objectives generalization and solution effectiveness using DRL. In particular,
we employ the PPO algorithm that adopts the policy-gradient paradigm that is
found to perform well in the constrained dispatching of jobs. We incorporated
an OSM in the environment to achieve better generalized learning of the
problem. The performance of the presented approach is analyzed in depth by
using a set of available benchmark instances and comparing our results with the
work of other groups.
- Abstract(参考訳): 生産資源のスケジューリング(ジョブを機械に関連付けるなど)は、製造産業にとってエネルギーの節約だけでなく、全体の効率を向上させる上でも重要な役割を担っている。
さまざまなジョブスケジューリング問題の中で、JSSPはこの作業で対処されている。
JSSP は NP-hard COP のカテゴリに分類される。
FIFO や LPT などの単純なヒューリスティックや Taboo search などのメタヒューリスティックは、探索空間を切断することでその問題を解決するためによく用いられる。
この手法の有効性は、最適あるいは時間のどちらにも及ばないため、大きな問題の規模では非効率になる。
近年,DRLを用いてCOPを解く研究が注目され,ソリューションの品質と計算効率の面で有望な結果が示されている。
本研究では, DRL を用いて目的の一般化と解の有効性を検証した JSSP の新たな手法を提案する。
特に、制約されたジョブのディスパッチにおいてよく機能すると考えられるポリシ・グラディエントパラダイムを採用するPPOアルゴリズムを採用する。
我々はOSMを環境に組み込んで、問題をより一般化した学習を実現した。
提案手法の性能は、利用可能なベンチマークインスタンスのセットを使用して深く分析し、結果と他のグループの成果を比較して分析する。
関連論文リスト
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Decision Transformer for Enhancing Neural Local Search on the Job Shop Scheduling Problem [10.316443594063173]
ジョブショップスケジューリング問題(JSSP)とその解法アルゴリズムは、何十年もの間、アカデミックと産業の両方に永続的な関心を集めてきた。
近年、機械学習(ML)は、JSSPのための既存のソリューションと新しいソリューションの構築において、より短い時間でより良いソリューションを見つけることを目的として、ますます重要な役割を担っている。
我々は、JSSP上の大規模局所探索を効率よく効果的に制御できる、Neural Local Search(NLS)と呼ばれる最先端の深層強化学習(DRL)エージェントの上に構築する。
論文 参考訳(メタデータ) (2024-09-04T13:33:38Z) - Learning to Solve Job Shop Scheduling under Uncertainty [1.3002317221601185]
ジョブショップスケジューリング問題(JSSP、Job-Shop Scheduling Problem)は、タスクをマシン上でスケジュールする必要がある最適化問題である。
本稿では,Dreep Reinforcement Learning (DRL) 技術を利用してロバストなソリューションを探索する手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T08:38:55Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Solving the Traveling Salesperson Problem with Precedence Constraints by
Deep Reinforcement Learning [59.14935871979047]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。
これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文 参考訳(メタデータ) (2022-07-04T14:31:47Z) - Fast Approximations for Job Shop Scheduling: A Lagrangian Dual Deep
Learning Method [44.4747903763245]
ジョブショップスケジューリング問題(Jobs shop Scheduling Problem、JSP)は、様々な産業目的のために日常的に解決される標準最適化問題である。
問題はNPハードであり、中規模のインスタンスでも計算が困難である。
本稿では,問題に対する効率的かつ正確な近似を提供するためのディープラーニングアプローチについて検討する。
論文 参考訳(メタデータ) (2021-10-12T21:15:19Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。