論文の概要: Smaller Batches, Bigger Gains? Investigating the Impact of Batch Sizes on Reinforcement Learning Based Real-World Production Scheduling
- arxiv url: http://arxiv.org/abs/2406.02294v1
- Date: Tue, 4 Jun 2024 13:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 16:20:58.009072
- Title: Smaller Batches, Bigger Gains? Investigating the Impact of Batch Sizes on Reinforcement Learning Based Real-World Production Scheduling
- Title(参考訳): より小さなバッチと大きなゲイン : 強化学習に基づく実世界の生産計画におけるバッチサイズの影響について
- Authors: Arthur Müller, Felix Grumbach, Matthia Sabatelli,
- Abstract要約: この研究は、強化学習ソリューションに対する様々なバッチサイズの影響について考察する。
適切なバッチサイズの選択に関して、インフォームドな決定を下すことができる。
この研究の成果は、同等のスケジューリング問題を持ついくつかの工業用ユースケースに応用できる可能性をもたらす。
- 参考スコア(独自算出の注目度): 2.2530496464901106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Production scheduling is an essential task in manufacturing, with Reinforcement Learning (RL) emerging as a key solution. In a previous work, RL was utilized to solve an extended permutation flow shop scheduling problem (PFSSP) for a real-world production line with two stages, linked by a central buffer. The RL agent was trained to sequence equallysized product batches to minimize setup efforts and idle times. However, the substantial impact caused by varying the size of these product batches has not yet been explored. In this follow-up study, we investigate the effects of varying batch sizes, exploring both the quality of solutions and the training dynamics of the RL agent. The results demonstrate that it is possible to methodically identify reasonable boundaries for the batch size. These boundaries are determined on one side by the increasing sample complexity associated with smaller batch sizes, and on the other side by the decreasing flexibility of the agent when dealing with larger batch sizes. This provides the practitioner the ability to make an informed decision regarding the selection of an appropriate batch size. Moreover, we introduce and investigate two new curriculum learning strategies to enable the training with small batch sizes. The findings of this work offer the potential for application in several industrial use cases with comparable scheduling problems.
- Abstract(参考訳): 生産スケジュールは製造において必須の課題であり、強化学習(RL)が鍵となるソリューションである。
前回の研究では、RLを使用して、中央バッファでリンクされた2つのステージを持つ実世界の生産ラインに対して、拡張置換フローショップスケジューリング問題(PFSSP)を解決した。
RLエージェントは、セットアップの労力とアイドル時間を最小化するために、等サイズの製品バッチをシーケンスするように訓練された。
しかし、これらの製品バッチのサイズの変化による大きな影響は、まだ調査されていない。
本研究では, 各種バッチサイズの影響について検討し, 溶液の品質とRLエージェントのトレーニング力学について検討した。
その結果,バッチサイズに対する合理的な境界を定量的に特定できることが示唆された。
これらの境界は、より小さなバッチサイズに関連するサンプルの複雑さの増加と、より大きなバッチサイズを扱う際のエージェントの柔軟性の低下によって決定される。
これにより、適切なバッチサイズの選択に関する情報的な決定を行うことができる。
さらに,2つの新しいカリキュラム学習手法を導入,検討し,小規模なバッチサイズでの学習を可能にする。
この研究の成果は、同等のスケジューリング問題を持ついくつかの工業用ユースケースに応用できる可能性をもたらす。
関連論文リスト
- Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Curriculum Learning in Job Shop Scheduling using Reinforcement Learning [0.3867363075280544]
深層強化学習(DRL)は、困難な事例に対応するエージェントの計画戦略を動的に調整する。
学習プロセスの設計に,同じ問題サイズ内での難易度の変数を積極的に組み込むことにより,基礎的手法としてのDLRをさらに改善する。
論文 参考訳(メタデータ) (2023-05-17T13:15:27Z) - Flexible Job Shop Scheduling via Dual Attention Network Based
Reinforcement Learning [73.19312285906891]
フレキシブルなジョブショップスケジューリング問題(FJSP)では、複数のマシンで操作を処理でき、操作とマシンの間の複雑な関係が生じる。
近年, 深層強化学習(DRL)を用いて, FJSP解決のための優先派遣規則(PDR)を学習している。
本稿では,Deep機能抽出のための自己注意モデルと,スケーラブルな意思決定のためのDRLの利点を生かした,エンドツーエンド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-09T01:35:48Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Existence and Estimation of Critical Batch Size for Training Generative
Adversarial Networks with Two Time-Scale Update Rule [0.2741266294612775]
これまで、異なる学習率を用いた2つの時間スケール更新ルール(TTUR)が、理論および実際におけるGAN(Generative Adversarial Network)のトレーニングに有用であることが示されてきた。
本稿では,一定の学習率に基づいて,バッチサイズとGANをTTURで訓練するために必要なステップ数との関係について検討する。
論文 参考訳(メタデータ) (2022-01-28T08:52:01Z) - Batch Active Learning at Scale [39.26441165274027]
バッチクエリをラベル付けオラクルに適応的に発行するバッチアクティブラーニングは、この問題に対処するための一般的なアプローチである。
本研究では,大規模なバッチ設定に着目した効率的な能動学習アルゴリズムを解析する。
本研究では,不確実性と多様性の概念を組み合わせたサンプリング手法について,従来より数桁大きなバッチサイズ(100K-1M)に容易にスケール可能であることを示す。
論文 参考訳(メタデータ) (2021-07-29T18:14:05Z) - Exact and Metaheuristic Approaches for the Production Leveling Problem [5.510992382274775]
本稿では,生産水準問題(Product Leveling Problem)と呼ぶ生産計画分野における新たな問題を紹介する。
タスクは、各期間の負荷と各生産資源のバランスが取れ、容量制限が越えられず、注文の優先順位が考慮されるように、生産期間に注文を割り当てることである。
問題の公式モデルを提案し、Bin Backingからの還元によりNP硬度を示す。
論文 参考訳(メタデータ) (2020-06-15T20:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。