論文の概要: Policy-Based Deep Reinforcement Learning Hyperheuristics for Job-Shop Scheduling Problems
- arxiv url: http://arxiv.org/abs/2601.11189v1
- Date: Fri, 16 Jan 2026 11:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.464148
- Title: Policy-Based Deep Reinforcement Learning Hyperheuristics for Job-Shop Scheduling Problems
- Title(参考訳): ジョブショップスケジューリング問題に対する政策に基づく深層強化学習ハイパーヒューリスティックス
- Authors: Sofiene Lassoued, Asrat Gobachew, Stefan Lier, Andreas Schwung,
- Abstract要約: 本稿では,ジョブショップスケジューリング問題を解決するための政策に基づく深層強化学習フレームワークを提案する。
ハイパーヒューリスティックなフレームワークを2つの重要なメカニズムで拡張する。
提案手法は,従来の決定論,メタヒューリスティックス,最近のニューラルネットワークに基づくスケジューリング手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 3.0098885383612104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a policy-based deep reinforcement learning hyper-heuristic framework for solving the Job Shop Scheduling Problem. The hyper-heuristic agent learns to switch scheduling rules based on the system state dynamically. We extend the hyper-heuristic framework with two key mechanisms. First, action prefiltering restricts decision-making to feasible low-level actions, enabling low-level heuristics to be evaluated independently of environmental constraints and providing an unbiased assessment. Second, a commitment mechanism regulates the frequency of heuristic switching. We investigate the impact of different commitment strategies, from step-wise switching to full-episode commitment, on both training behavior and makespan. Additionally, we compare two action selection strategies at the policy level: deterministic greedy selection and stochastic sampling. Computational experiments on standard JSSP benchmarks demonstrate that the proposed approach outperforms traditional heuristics, metaheuristics, and recent neural network-based scheduling methods
- Abstract(参考訳): 本稿では,ジョブショップスケジューリング問題を解決するための政策に基づく深層強化学習フレームワークを提案する。
超ヒューリスティックエージェントは、システム状態に基づいてスケジューリングルールを動的に切り替えることを学ぶ。
ハイパーヒューリスティックなフレームワークを2つの重要なメカニズムで拡張する。
第一に、行動事前フィルタリングは意思決定を可能な低レベルの行動に制限し、環境制約から独立して低レベルのヒューリスティックを評価できるようにし、バイアスのない評価を提供する。
第二に、コミットメント機構はヒューリスティックスイッチングの頻度を制御する。
ステップワイズ・スイッチングからフルエピソード・コミットまで,異なるコミットメント戦略がトレーニング行動とメイスパンの両方に与える影響について検討する。
さらに、政策レベルでの2つの行動選択戦略、決定論的欲求選択と確率的サンプリングを比較した。
標準JSSPベンチマークの計算実験は、提案手法が従来のヒューリスティックス、メタヒューリスティックス、および最近のニューラルネットワークベースのスケジューリング手法より優れていることを示した。
関連論文リスト
- Policy-Based Reinforcement Learning with Action Masking for Dynamic Job Shop Scheduling under Uncertainty: Handling Random Arrivals and Machine Failures [3.2880869992413246]
本稿では、不確実性の下で動的ジョブショップスケジューリング問題を解決するための新しいフレームワークを提案する。
提案手法は,スケジュール環境を表現するためにColoured Timed Petri Netsを用いて,モデルに基づくパラダイムに従う。
我々は,動的JSSPベンチマークの実験を行い,提案手法が従来型の最小化とルールベースのアプローチを,メイスパンの観点から一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-14T08:53:46Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals [12.894271401094615]
HRLの重要な課題は、低レベルの政策が時間とともに変化し、高レベルの政策が効果的なサブゴールを生成するのが難しくなることである。
本稿では,ガウス過程(GP)によって正規化された条件拡散モデルを訓練して,複雑なサブゴールを生成する手法を提案する。
この枠組みに基づいて,拡散政策とGPの予測平均からサブゴールを選択する戦略を開発する。
論文 参考訳(メタデータ) (2025-05-27T20:38:44Z) - Offline Multi-agent Reinforcement Learning via Score Decomposition [51.23590397383217]
オフライン協調型マルチエージェント強化学習(MARL)は、分散シフトによる固有の課題に直面している。
この作業は、オフラインとオンラインのMARL間の分散ギャップを明示的に解決する最初の作業である。
論文 参考訳(メタデータ) (2025-05-09T11:42:31Z) - Bidirectional Task-Motion Planning Based on Hierarchical Reinforcement Learning for Strategic Confrontation [12.278121909070485]
Swarm Roboticsでは、戦略的対立を含む対決シナリオは、効率的な意思決定を必要とする。
従来のタスクと動作計画手法は意思決定を2つの層に分けるが、その一方向構造はこれらの層間の相互依存を捉えない。
本稿では階層的強化学習に基づく新しい双方向手法を提案し,層間の動的相互作用を実現する。
論文 参考訳(メタデータ) (2025-04-22T13:22:58Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Hierarchical Decision Making Based on Structural Information Principles [19.82391136775341]
本稿では,階層的意思決定のための構造情報原則に基づく新しいフレームワーク,すなわちSIDMを提案する。
本稿では,過去の状態-行動軌跡を処理し,状態と行動の抽象表現を構築する抽象化機構を提案する。
単エージェントシナリオのためのスキルベース学習手法と,多エージェントシナリオのためのロールベースの協調手法を開発し,そのどちらも,パフォーマンス向上のために様々な基礎アルゴリズムを柔軟に統合することができる。
論文 参考訳(メタデータ) (2024-04-15T13:02:00Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Hybrid intelligence for dynamic job-shop scheduling with deep
reinforcement learning and attention mechanism [28.28095225164155]
我々は、DJSPをマルコフ決定過程(MDP)として定式化し、強化学習(RL)に対処する。
本稿では,分割グラフを状態とするフレキシブルなハイブリッドフレームワークを提案する。
我々は、有名なOR-Libraryに基づく公開ベンチマークであるGymjspを紹介し、RLおよびDJSP研究コミュニティのための標準化されたオフザシェルフ施設を提供する。
論文 参考訳(メタデータ) (2022-01-03T09:38:13Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。