論文の概要: DSevolve: Enabling Real-Time Adaptive Scheduling on Dynamic Shop Floor with LLM-Evolved Heuristic Portfolios
- arxiv url: http://arxiv.org/abs/2603.27628v1
- Date: Sun, 29 Mar 2026 10:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.047808
- Title: DSevolve: Enabling Real-Time Adaptive Scheduling on Dynamic Shop Floor with LLM-Evolved Heuristic Portfolios
- Title(参考訳): DSevolve: LLM型ヒューリスティックポートフォリオを用いた動的ショップフロア上でのリアルタイム適応スケジューリングの実現
- Authors: Jin Huang, Jie Yang, XinLei Zhou, Qihao Liu, Liang Gao, Xinyu Li,
- Abstract要約: DSevolveは、オフラインでアダプティブにデプロイするディスパッチルールの、品質と多様性のポートフォリオを進化させる、産業的なスケジューリングフレームワークである。
実際の産業データから得られた500件の 動的フレキシブルなジョブショップのインスタンスを 評価した。
- 参考スコア(独自算出の注目度): 21.474322896515393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In dynamic manufacturing environments, disruptions such as machine breakdowns and new order arrivals continuously shift the optimal dispatching strategy, making adaptive rule selection essential. Existing LLM-powered Automatic Heuristic Design (AHD) frameworks evolve toward a single elite rule that cannot meet this adaptability demand. To address this, we present DSevolve, an industrial scheduling framework that evolves a quality-diverse portfolio of dispatching rules offline and adaptively deploys them online with second-level response time. Multi-persona seeding and topology-aware evolutionary operators produce a behaviorally diverse rule archive indexed by a MAP-Elites feature space. Upon each disruption event, a probe-based fingerprinting mechanism characterizes the current shop floor state, retrieves high-quality candidate rules from an offline knowledge base, and selects the best one via rapid look-ahead simulation. Evaluated on 500 dynamic flexible job shop instances derived from real industrial data, DSevolve outperforms state-of-the-art AHD frameworks, classical dispatching rules, genetic programming, and deep reinforcement learning, offering a practical and deployable solution for intelligent shop floor scheduling.
- Abstract(参考訳): 動的製造環境では、機械の故障や新しい注文の到着といった破壊が、最適なディスパッチ戦略を継続的にシフトさせ、適応的なルール選択が不可欠である。
既存のLLMベースの自動ヒューリスティックデザイン(AHD)フレームワークは、この適応性要求を満たすことができない単一のエリートルールに向けて進化している。
この問題を解決するためにDSevolveを提案する。DSevolveは、第2レベルの応答時間でオフラインかつ適応的にそれらをオンラインにデプロイする、品質の異なるディスパッチルールのポートフォリオを進化させる産業用スケジューリングフレームワークである。
マルチパーソナライディングとトポロジを意識した進化作用素は、MAP-Elites特徴空間によってインデックス付けされた行動的に多様なルールアーカイブを生成する。
各ディスラプションイベントに際し、プローブベースの指紋認証機構が現在の店舗床状態を特徴付け、オフライン知識ベースから高品質の候補ルールを検索し、高速なルックアヘッドシミュレーションにより最良のものを選択する。
実際の産業データから派生した500の動的フレキシブルなジョブショップインスタンスを評価し、DSevolveは最先端のAHDフレームワーク、古典的なディスパッチルール、遺伝的プログラミング、深層強化学習を上回り、インテリジェントなショップフロアスケジューリングのための実用的でデプロイ可能なソリューションを提供する。
関連論文リスト
- AdaEvolve: Adaptive LLM Driven Zeroth-Order Optimization [61.535567824938205]
本稿では,LLMによる進化を階層的適応最適化問題として再構成するフレームワークであるAdaEvolveを紹介する。
AdaEvolveは185の異なるオープンエンド最適化問題において、オープンエンドベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-23T18:45:31Z) - LLM-Assisted Automatic Dispatching Rule Design for Dynamic Flexible Assembly Flow Shop Scheduling [14.08915850565659]
本研究では,LLM支援動的ルール設計フレームワーク(LLM4DRD)を開発し,スケジューリング機能に適合したオンラインスケジューリングルールを自動的に進化させる。
LLM4DRDの平均威力は、訓練と試験に使用される20の実践例において、最先端の手法よりも3.17-12.39%高い。
論文 参考訳(メタデータ) (2026-01-22T08:06:40Z) - Adaptive Approach to Enhance Machine Learning Scheduling Algorithms During Runtime Using Reinforcement Learning in Metascheduling Applications [0.0]
本稿では,メタスケジューラに組み込まれた適応型オンライン学習ユニットを提案する。
オンラインモードでは、強化学習は、新しいスケジューリングソリューションを継続的に探索し発見することで、重要な役割を果たす。
オンライン学習ユニット内にいくつかのRLモデルが実装され、それぞれがスケジューリングの特定の課題に対処するように設計された。
論文 参考訳(メタデータ) (2025-09-24T19:46:22Z) - Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning [32.260964481673085]
大規模言語モデル(LLM)は、不十分な探索と長期クレジット割り当てのために、長期的な意思決定タスクに苦しむ。
本稿では, LLMポリシーにパラメータ効率が高く, 一般に適用可能な階層構造を導入する, 革新的なフレームワークを提案する。
我々は,低レベル制御器を抽象的なステップバイステップ計画で制御し,高レベル制御器で学習・指導する手法を開発した。
論文 参考訳(メタデータ) (2025-05-26T09:43:40Z) - OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Hybrid intelligence for dynamic job-shop scheduling with deep
reinforcement learning and attention mechanism [28.28095225164155]
我々は、DJSPをマルコフ決定過程(MDP)として定式化し、強化学習(RL)に対処する。
本稿では,分割グラフを状態とするフレキシブルなハイブリッドフレームワークを提案する。
我々は、有名なOR-Libraryに基づく公開ベンチマークであるGymjspを紹介し、RLおよびDJSP研究コミュニティのための標準化されたオフザシェルフ施設を提供する。
論文 参考訳(メタデータ) (2022-01-03T09:38:13Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。