論文の概要: Variational Approach for Job Shop Scheduling
- arxiv url: http://arxiv.org/abs/2602.00408v2
- Date: Tue, 03 Feb 2026 08:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.827227
- Title: Variational Approach for Job Shop Scheduling
- Title(参考訳): ジョブショップスケジューリングにおける変分アプローチ
- Authors: Seung Heon Oh, Jiwon Baek, Ki Young Cho, Hee Chang Yoon, Jong Hun Woo,
- Abstract要約: 本稿では、ジョブショップスケジューリング問題(JSSP)を解決するための新しい変分グラフ・ツー・スケジュール(VG2S)フレームワークを提案する。
提案手法は,最先端のDRLベースラインや従来のディスパッチルールと比較して,ゼロショットの一般化に優れる。
- 参考スコア(独自算出の注目度): 2.256375838037721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel Variational Graph-to-Scheduler (VG2S) framework for solving the Job Shop Scheduling Problem (JSSP), a critical task in manufacturing that directly impacts operational efficiency and resource utilization. Conventional Deep Reinforcement Learning (DRL) approaches often face challenges such as non-stationarity during training and limited generalization to unseen problem instances because they optimize representation learning and policy execution simultaneously. To address these issues, we introduce variational inference to the JSSP domain for the first time and derive a probabilistic objective based on the Evidence of Lower Bound (ELBO) with maximum entropy reinforcement learning. By mathematically decoupling representation learning from policy optimization, the VG2S framework enables the agent to learn robust structural representations of scheduling instances through a variational graph encoder. This approach significantly enhances training stability and robustness against hyperparameter variations. Extensive experiments demonstrate that the proposed method exhibits superior zero-shot generalization compared with state-of-the-art DRL baselines and traditional dispatching rules, particularly on large-scale and challenging benchmark instances such as DMU and SWV.
- Abstract(参考訳): 本稿では,ジョブショップスケジューリング問題(JSSP)を解決するための新しい変分グラフ・ツー・スケジュール(VG2S)フレームワークを提案する。
従来のDeep Reinforcement Learning(DRL)アプローチは、トレーニング中の非定常性や、表現学習とポリシー実行を同時に最適化するため、目に見えない問題インスタンスへの限定的な一般化といった課題に直面することが多い。
これらの問題に対処するために,我々は初めてJSSPドメインに変分推論を導入し,最大エントロピー強化学習による下界のエビデンス(ELBO)に基づく確率的目的を導出する。
政策最適化から表現学習を数学的に分離することにより、VG2Sフレームワークはエージェントが変動グラフエンコーダを介してスケジューリングインスタンスの堅牢な構造表現を学習することができる。
このアプローチは、ハイパーパラメータ変動に対するトレーニングの安定性と堅牢性を大幅に向上させる。
特にDMUやSWVのような大規模で挑戦的なベンチマークインスタンスにおいて,提案手法は最先端のDRLベースラインや従来のディスパッチルールよりも優れたゼロショット一般化を示すことを示す。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Scaling Online Distributionally Robust Reinforcement Learning: Sample-Efficient Guarantees with General Function Approximation [18.596128578766958]
分散ロバストなRL(DR-RL)は、不確実な遷移ダイナミクスの集合に対して最悪の性能を最適化することでこの問題に対処する。
本稿では,環境との相互作用によって最適なロバストポリシーを純粋に学習する一般関数近似を用いたオンラインDR-RLアルゴリズムを提案する。
本研究では,全変量不確実性セットの下でほぼ最適準線形後悔境界を確立する理論解析を行い,本手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-12-22T02:12:04Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Learning-enabled Flexible Job-shop Scheduling for Scalable Smart
Manufacturing [11.509669981978874]
スマートマニュファクチャリングシステムでは、生産性を最大化するためのソリューションを最適化するために、輸送制約付きフレキシブルなジョブショップスケジューリングが不可欠である。
近年, 深部強化学習(DRL)に基づくFJSPT法の開発が, 大規模一般化の課題に直面している。
Heterogeneous Graph Scheduler (HGS) と呼ばれる新しいグラフベースのDRL法を導入する。
論文 参考訳(メタデータ) (2024-02-14T06:49:23Z) - Solving the flexible job-shop scheduling problem through an enhanced
deep reinforcement learning approach [1.565361244756411]
本稿では、特に大規模インスタンスにおいて、フレキシブルなジョブショップスケジューリング問題を解決するための新しいDRL法を提案する。
このアプローチは、問題をより情報的なグラフ表現にヘテロジニアスグラフニューラルネットワークを使用することに基づいている。
論文 参考訳(メタデータ) (2023-10-24T10:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。