Fugu-MT 論文翻訳(概要): A Reinforcement Learning Approach for Scheduling Problems With Improved Generalization Through Order Swapping

論文の概要: A Reinforcement Learning Approach for Scheduling Problems With Improved Generalization Through Order Swapping

arxiv url: http://arxiv.org/abs/2302.13941v1
Date: Mon, 27 Feb 2023 16:45:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-28 14:52:57.377008
Title: A Reinforcement Learning Approach for Scheduling Problems With Improved Generalization Through Order Swapping
Title（参考訳）: 順序スワッピングによる一般化によるスケジューリング問題に対する強化学習アプローチ
Authors: Deepak Vivekanandan, Samuel Wirth, Patrick Karlbauer, Noah Klarmann
Abstract要約: JSSP は NP-hard COP のカテゴリに分類される。近年,COPの解法にDRLを用いる研究が注目され,解の質や計算効率の面で有望な結果が示されている。特に、制約されたジョブのディスパッチにおいてよく機能すると考えられるポリシ・グラディエントパラダイムを採用するPPOアルゴリズムを採用する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The scheduling of production resources (such as associating jobs to machines) plays a vital role for the manufacturing industry not only for saving energy but also for increasing the overall efficiency. Among the different job scheduling problems, the JSSP is addressed in this work. JSSP falls into the category of NP-hard COP, in which solving the problem through exhaustive search becomes unfeasible. Simple heuristics such as FIFO, LPT and metaheuristics such as Taboo search are often adopted to solve the problem by truncating the search space. The viability of the methods becomes inefficient for large problem sizes as it is either far from the optimum or time consuming. In recent years, the research towards using DRL to solve COP has gained interest and has shown promising results in terms of solution quality and computational efficiency. In this work, we provide an novel approach to solve the JSSP examining the objectives generalization and solution effectiveness using DRL. In particular, we employ the PPO algorithm that adopts the policy-gradient paradigm that is found to perform well in the constrained dispatching of jobs. We incorporated an OSM in the environment to achieve better generalized learning of the problem. The performance of the presented approach is analyzed in depth by using a set of available benchmark instances and comparing our results with the work of other groups.
Abstract（参考訳）: 生産資源のスケジューリング(ジョブを機械に関連付けるなど)は、製造産業にとってエネルギーの節約だけでなく、全体の効率を向上させる上でも重要な役割を担っている。さまざまなジョブスケジューリング問題の中で、JSSPはこの作業で対処されている。 JSSP は NP-hard COP のカテゴリに分類される。 FIFO や LPT などの単純なヒューリスティックや Taboo search などのメタヒューリスティックは、探索空間を切断することでその問題を解決するためによく用いられる。この手法の有効性は、最適あるいは時間のどちらにも及ばないため、大きな問題の規模では非効率になる。近年,DRLを用いてCOPを解く研究が注目され,ソリューションの品質と計算効率の面で有望な結果が示されている。本研究では, DRL を用いて目的の一般化と解の有効性を検証した JSSP の新たな手法を提案する。特に、制約されたジョブのディスパッチにおいてよく機能すると考えられるポリシ・グラディエントパラダイムを採用するPPOアルゴリズムを採用する。我々はOSMを環境に組み込んで、問題をより一般化した学習を実現した。提案手法の性能は、利用可能なベンチマークインスタンスのセットを使用して深く分析し、結果と他のグループの成果を比較して分析する。

関連論文リスト

Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-16T00:53:41Z)
Decision Transformer for Enhancing Neural Local Search on the Job Shop Scheduling Problem [10.316443594063173]
ジョブショップスケジューリング問題(JSSP)とその解法アルゴリズムは、何十年もの間、アカデミックと産業の両方に永続的な関心を集めてきた。近年、機械学習(ML)は、JSSPのための既存のソリューションと新しいソリューションの構築において、より短い時間でより良いソリューションを見つけることを目的として、ますます重要な役割を担っている。我々は、JSSP上の大規模局所探索を効率よく効果的に制御できる、Neural Local Search(NLS)と呼ばれる最先端の深層強化学習(DRL)エージェントの上に構築する。
論文参考訳（メタデータ） (2024-09-04T13:33:38Z)
Learning to Solve Job Shop Scheduling under Uncertainty [1.3002317221601185]
ジョブショップスケジューリング問題(JSSP、Job-Shop Scheduling Problem)は、タスクをマシン上でスケジュールする必要がある最適化問題である。本稿では,Dreep Reinforcement Learning (DRL) 技術を利用してロバストなソリューションを探索する手法を提案する。
論文参考訳（メタデータ） (2024-03-04T08:38:55Z)
Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。 PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文参考訳（メタデータ） (2024-02-16T19:35:58Z)
A Reinforcement Learning-assisted Genetic Programming Algorithm for Team Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文参考訳（メタデータ） (2023-04-08T14:32:12Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
Solving the Traveling Salesperson Problem with Precedence Constraints by Deep Reinforcement Learning [59.14935871979047]
本研究は, 深層強化学習(DRL)を用いた優先制約付きトラベリングセールスパーソン問題(TSPPC)の解を提案する。これらのアプローチに共通しているのは、マルチヘッドアテンション層に基づくグラフモデルの利用である。
論文参考訳（メタデータ） (2022-07-04T14:31:47Z)
Fast Approximations for Job Shop Scheduling: A Lagrangian Dual Deep Learning Method [44.4747903763245]
ジョブショップスケジューリング問題(Jobs shop Scheduling Problem、JSP)は、様々な産業目的のために日常的に解決される標準最適化問題である。問題はNPハードであり、中規模のインスタンスでも計算が困難である。本稿では,問題に対する効率的かつ正確な近似を提供するためのディープラーニングアプローチについて検討する。
論文参考訳（メタデータ） (2021-10-12T21:15:19Z)
Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文参考訳（メタデータ） (2021-03-23T17:49:50Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。