論文の概要: An actor-critic algorithm with policy gradients to solve the job shop
scheduling problem using deep double recurrent agents
- arxiv url: http://arxiv.org/abs/2110.09076v2
- Date: Tue, 21 Nov 2023 12:23:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 06:18:19.991480
- Title: An actor-critic algorithm with policy gradients to solve the job shop
scheduling problem using deep double recurrent agents
- Title(参考訳): ディープダブルリカレントエージェントを用いたジョブショップスケジューリング問題を解決するためのポリシー勾配付きアクタ批判アルゴリズム
- Authors: Marta Monaci, Valerio Agasucci and Giorgio Grani
- Abstract要約: ジョブショップスケジューリング問題(JSSP)に対する深層強化学習手法を提案する。
目的は、ジョブやマシンの数によって異なるJSSPインスタンスのディストリビューションについて学べるgreedyのようなものを構築することである。
予想通り、モデルはある程度は、トレーニングで使用されるものと異なる分布から生じるより大きな問題やインスタンスに一般化することができる。
- 参考スコア(独自算出の注目度): 1.3812010983144802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing interest in integrating machine learning techniques and
optimization to solve challenging optimization problems. In this work, we
propose a deep reinforcement learning methodology for the job shop scheduling
problem (JSSP). The aim is to build up a greedy-like heuristic able to learn on
some distribution of JSSP instances, different in the number of jobs and
machines. The need for fast scheduling methods is well known, and it arises in
many areas, from transportation to healthcare. We model the JSSP as a Markov
Decision Process and then we exploit the efficacy of reinforcement learning to
solve the problem. We adopt an actor-critic scheme, where the action taken by
the agent is influenced by policy considerations on the state-value function.
The procedures are adapted to take into account the challenging nature of JSSP,
where the state and the action space change not only for every instance but
also after each decision. To tackle the variability in the number of jobs and
operations in the input, we modeled the agent using two incident LSTM models, a
special type of deep neural network. Experiments show the algorithm reaches
good solutions in a short time, proving that is possible to generate new greedy
heuristics just from learning-based methodologies. Benchmarks have been
generated in comparison with the commercial solver CPLEX. As expected, the
model can generalize, to some extent, to larger problems or instances
originated by a different distribution from the one used in training.
- Abstract(参考訳): 機械学習技術の統合や最適化による最適化の課題解決への関心が高まっている。
本研究では,ジョブショップスケジューリング問題(JSSP)に対する深層強化学習手法を提案する。
目的は、ジョブやマシンの数によって異なるJSSPインスタンスのディストリビューションについて学ぶことができる、欲張りのようなヒューリスティックを構築することである。
高速なスケジューリング手法の必要性はよく知られており、交通から医療に至るまで、多くの領域で発生する。
我々はjsspをマルコフ決定プロセスとしてモデル化し,強化学習の有効性を生かして問題を解決した。
エージェントが行う行動は,状態値関数に関する政策的考察の影響を受け,アクター批判的手法を採用する。
この手順はjsspの困難な性質を考慮に入れるために適用され、状態とアクション空間は各インスタンスに対してだけでなく、各決定の後にも変化する。
入力中のジョブ数と操作数の変化に対処するため,我々は,特殊なタイプのディープニューラルネットワークであるインシデントlstmモデルを用いてエージェントをモデル化した。
実験により、アルゴリズムは短時間で良い解に到達し、学習ベースの方法論から新しい欲求的ヒューリスティックを生成できることが証明された。
ベンチマークは商用のソルバcplexと比較して生成されている。
予想通り、モデルはある程度は、トレーニングで使用されるものと異なる分布から生じるより大きな問題やインスタンスに一般化することができる。
関連論文リスト
- Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。
これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。
我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文 参考訳(メタデータ) (2024-11-03T07:01:13Z) - Decision Transformer for Enhancing Neural Local Search on the Job Shop Scheduling Problem [10.316443594063173]
ジョブショップスケジューリング問題(JSSP)とその解法アルゴリズムは、何十年もの間、アカデミックと産業の両方に永続的な関心を集めてきた。
近年、機械学習(ML)は、JSSPのための既存のソリューションと新しいソリューションの構築において、より短い時間でより良いソリューションを見つけることを目的として、ますます重要な役割を担っている。
我々は、JSSP上の大規模局所探索を効率よく効果的に制御できる、Neural Local Search(NLS)と呼ばれる最先端の深層強化学習(DRL)エージェントの上に構築する。
論文 参考訳(メタデータ) (2024-09-04T13:33:38Z) - An End-to-End Reinforcement Learning Approach for Job-Shop Scheduling
Problems Based on Constraint Programming [5.070542698701157]
本稿では,CPと強化学習(Reinforcement Learning, RL)を用いてスケジューリング問題を解決する新しいエンドツーエンドアプローチを提案する。
当社のアプローチでは,既存のCPソルバを活用して,プライオリティ・ディスパッチ・ルール(PDR)を学ぶエージェントをトレーニングする。
論文 参考訳(メタデータ) (2023-06-09T08:24:56Z) - Curriculum Learning in Job Shop Scheduling using Reinforcement Learning [0.3867363075280544]
深層強化学習(DRL)は、困難な事例に対応するエージェントの計画戦略を動的に調整する。
学習プロセスの設計に,同じ問題サイズ内での難易度の変数を積極的に組み込むことにより,基礎的手法としてのDLRをさらに改善する。
論文 参考訳(メタデータ) (2023-05-17T13:15:27Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Learning to Stop While Learning to Predict [85.7136203122784]
多くのアルゴリズムにインスパイアされたディープモデルは全ての入力に対して固定深度に制限される。
アルゴリズムと同様に、深いアーキテクチャの最適深さは、異なる入力インスタンスに対して異なるかもしれない。
本稿では, ステアブルアーキテクチャを用いて, この様々な深さ問題に対処する。
学習した深層モデルと停止ポリシーにより,多様なタスクセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-06-09T07:22:01Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z) - Physarum Powered Differentiable Linear Programming Layers and
Applications [48.77235931652611]
一般線形プログラミング問題に対する効率的かつ微分可能な解法を提案する。
本稿では,ビデオセグメンテーションタスクとメタラーニングにおける問題解決手法について述べる。
論文 参考訳(メタデータ) (2020-04-30T01:50:37Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。