論文の概要: Generalizing Beyond Suboptimality: Offline Reinforcement Learning Learns Effective Scheduling through Random Data
- arxiv url: http://arxiv.org/abs/2509.10303v1
- Date: Fri, 12 Sep 2025 14:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.129203
- Title: Generalizing Beyond Suboptimality: Offline Reinforcement Learning Learns Effective Scheduling through Random Data
- Title(参考訳): 準最適性を超えて一般化する: オフライン強化学習はランダムデータを通して効果的なスケジューリングを学ぶ
- Authors: Jesse van Remmerden, Zaharah Bukhsh, Yingqian Zhang,
- Abstract要約: 保守的量子アクター批判(CDQAC)は、歴史的データから直接効果的なスケジューリングポリシーを学習する。
CDQACは、オリジナルのデータ生成を一貫して上回り、最先端のオフラインオンラインベースラインを上回っている。
- 参考スコア(独自算出の注目度): 2.0718953516814103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Job-Shop Scheduling Problem (JSP) and Flexible Job-Shop Scheduling Problem (FJSP), are canonical combinatorial optimization problems with wide-ranging applications in industrial operations. In recent years, many online reinforcement learning (RL) approaches have been proposed to learn constructive heuristics for JSP and FJSP. Although effective, these online RL methods require millions of interactions with simulated environments that may not capture real-world complexities, and their random policy initialization leads to poor sample efficiency. To address these limitations, we introduce Conservative Discrete Quantile Actor-Critic (CDQAC), a novel offline RL algorithm that learns effective scheduling policies directly from historical data, eliminating the need for costly online interactions, while maintaining the ability to improve upon suboptimal training data. CDQAC couples a quantile-based critic with a delayed policy update, estimating the return distribution of each machine-operation pair rather than selecting pairs outright. Our extensive experiments demonstrate CDQAC's remarkable ability to learn from diverse data sources. CDQAC consistently outperforms the original data-generating heuristics and surpasses state-of-the-art offline and online RL baselines. In addition, CDQAC is highly sample efficient, requiring only 10-20 training instances to learn high-quality policies. Surprisingly, we find that CDQAC performs better when trained on data generated by a random heuristic than when trained on higher-quality data from genetic algorithms and priority dispatching rules.
- Abstract(参考訳): ジョブショップスケジューリング問題 (JSP) とフレキシブルジョブショップスケジューリング問題 (FJSP) は、産業運用における広範囲の応用を伴う標準組合せ最適化問題である。
近年,JSPとFJSPの構成的ヒューリスティックスを学ぶために,オンライン強化学習(RL)アプローチが多数提案されている。
効果はあるものの、これらのオンラインRL手法は実世界の複雑さを捉えないシミュレーション環境との数百万の相互作用を必要とし、それらのランダムなポリシーの初期化はサンプル効率を低下させる。
これらの制約に対処するため、我々は、新しいオフラインRLアルゴリズムであるCDQACを導入する。これは、履歴データから直接効果的なスケジューリングポリシーを学習し、コストのかかるオンラインインタラクションの必要性を排除し、最適でないトレーニングデータを改善する能力を維持しながら、新しいオフラインRLアルゴリズムである。
CDQACは、量子ベースの批評家と遅延ポリシーの更新を結合し、ペアを正しく選択するのではなく、各マシン操作ペアの戻り分布を推定する。
我々はCDQACが様々なデータソースから学習できることを実証した。
CDQACは、オリジナルのデータ生成ヒューリスティックを一貫して上回り、最先端のオフラインおよびオンラインRLベースラインを上回っている。
さらに、CDQACはサンプル効率が高く、高品質なポリシーを学ぶのに10~20のトレーニングインスタンスしか必要としない。
意外なことに、CDQACは、遺伝的アルゴリズムや優先ディスパッチルールによる高品質なデータに基づいて訓練された場合よりも、ランダムヒューリスティックによって生成されたデータで訓練された場合よりも優れた性能を発揮する。
関連論文リスト
- Adaptive Scaling of Policy Constraints for Offline Reinforcement Learning [24.46783760408068]
オフライン強化学習(RL)は、環境の相互作用なしに、固定データセットから効果的なポリシーを学習することを可能にする。
既存の方法は、通常、オフラインのRLトレーニングで遭遇する分散シフトを軽減するためにポリシー制約を使用する。
本稿では,RLと行動クローニング(BC)を動的にバランスする2階微分可能なフレームワークであるAdaptive Scaling of Policy Constraints (ASPC)を提案する。
論文 参考訳(メタデータ) (2025-08-27T14:00:18Z) - Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling [0.9831489366502301]
ジョブショップスケジューリング問題(JSSP)は複雑な最適化問題である。
オンライン強化学習(RL)は、JSSPの許容可能なソリューションを素早く見つけることで、有望であることを示している。
JSSPのオフライン強化学習手法であるOffline Learned Dispatching (Offline-LD)を紹介する。
論文 参考訳(メタデータ) (2024-09-16T15:18:10Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。