論文の概要: Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2010.12367v1
- Date: Fri, 23 Oct 2020 12:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 21:22:10.389727
- Title: Learning to Dispatch for Job Shop Scheduling via Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習によるジョブショップスケジューリングのための派遣学習
- Authors: Cong Zhang, Wen Song, Zhiguang Cao, Jie Zhang, Puay Siew Tan, Chi Xu
- Abstract要約: プライオリティルール(PDR)は、現実世界のジョブショップディスパッチ問題(JSSP)の解決に広く用いられている。
エンド・ツー・エンドの深部強化学習エージェントを用いてPDRを自動的に学習することを提案する。
本稿では,JSSPの解離グラフ表現を利用して,解答時に遭遇する状態を埋め込むグラフニューラルネットワークに基づくスキームを提案する。
- 参考スコア(独自算出の注目度): 18.21524307131272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Priority dispatching rule (PDR) is widely used for solving real-world
Job-shop scheduling problem (JSSP). However, the design of effective PDRs is a
tedious task, requiring a myriad of specialized knowledge and often delivering
limited performance. In this paper, we propose to automatically learn PDRs via
an end-to-end deep reinforcement learning agent. We exploit the disjunctive
graph representation of JSSP, and propose a Graph Neural Network based scheme
to embed the states encountered during solving. The resulting policy network is
size-agnostic, effectively enabling generalization on large-scale instances.
Experiments show that the agent can learn high-quality PDRs from scratch with
elementary raw features, and demonstrates strong performance against the best
existing PDRs. The learned policies also perform well on much larger instances
that are unseen in training.
- Abstract(参考訳): プライオリティディスパッチルール(PDR)は、現実世界のジョブショップスケジューリング問題(JSSP)の解決に広く用いられている。
しかし、効果的なPDRの設計は面倒な作業であり、多くの専門知識を必要とし、しばしば限られた性能を提供する。
本稿では,エンドツーエンドの深部強化学習エージェントを用いてPDRを自動的に学習する手法を提案する。
本稿では,JSSPの解離グラフ表現を利用して,解答時に遭遇する状態を埋め込むグラフニューラルネットワーク方式を提案する。
結果として得られるポリシネットワークはサイズ非依存で、大規模インスタンスの一般化を効果的に実現します。
実験により, 原形質を用いて, 高品質PDRをスクラッチから学習し, 既存のPDRに対して高い性能を示すことができた。
学習したポリシーは、トレーニングで目に見えないより大きなインスタンスでもうまく機能します。
関連論文リスト
- Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - Deep Reinforcement Learning for Traveling Purchaser Problems [63.37136587778153]
旅行購入問題(TPP)は幅広いアプリケーションにおいて重要な最適化問題である。
本稿では,ルート構築と購入計画を個別に扱う,深層強化学習(DRL)に基づく新しいアプローチを提案する。
メタラーニング戦略を導入することで、大規模なTPPインスタンス上で安定してポリシーネットワークをトレーニングすることができる。
論文 参考訳(メタデータ) (2024-04-03T05:32:10Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Graph Neural Networks for Decentralized Multi-Agent Perimeter Defense [111.9039128130633]
我々は,防御者の地域認識とコミュニケーショングラフから行動へのマッピングを学習する模倣学習フレームワークを開発した。
学習ネットワークの性能を実証するために、異なるチームサイズと構成のシナリオで周辺防衛ゲームを実行します。
論文 参考訳(メタデータ) (2023-01-23T19:35:59Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z) - DeepTPI: Test Point Insertion with Deep Reinforcement Learning [6.357061090668433]
テストポイント挿入(TPI)は、テスト容易性向上のための広く使われている技術である。
深部強化学習(DRL)に基づく新しいTPI手法であるDeepTPIを提案する。
市販のDFTツールと比較して,DeepTPIはテストカバレッジを著しく改善することがわかった。
論文 参考訳(メタデータ) (2022-06-07T14:13:42Z) - Frustratingly Easy Regularization on Representation Can Boost Deep
Reinforcement Learning [9.072416458330268]
そこで本研究では,$Q$-networkとその対象である$Q$-networkの学習表現が,理論上,良質な識別可能な表現特性を満たすことを実証する。
本稿では,内部表現の明示的正規化を通じて識別可能な表現特性を維持することを目的とした,表現の簡易正規化によるポリシー評価を提案する。
PEERはPyBulletの4つの環境での最先端のパフォーマンス、DMControlの12タスク中9、Atariの26ゲーム中19タスクを実現している。
論文 参考訳(メタデータ) (2022-05-29T02:29:32Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning to schedule job-shop problems: Representation and policy
learning using graph neural network and reinforcement learning [9.379652654427959]
グラフニューラルネットワーク(GNN)と強化学習(RL)を用いて,ジョブショップ問題(JSSP)のスケジューリングを学習するフレームワークを提案する。
我々は、GNNスケジューラが、その超一般化能力により、様々なベンチマークJSSP上で、現実的に好まれるルールやRLベースのスケジューラよりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T11:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。