論文の概要: Genetic Programming with Reinforcement Learning Trained Transformer for Real-World Dynamic Scheduling Problems
- arxiv url: http://arxiv.org/abs/2504.07779v1
- Date: Thu, 10 Apr 2025 14:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:21:22.439363
- Title: Genetic Programming with Reinforcement Learning Trained Transformer for Real-World Dynamic Scheduling Problems
- Title(参考訳): 実世界の動的スケジューリング問題に対する強化学習学習型変換器を用いた遺伝的プログラミング
- Authors: Xian Chen, Rong Qu, Jing Dong, Ruibin Bai, Yaochu Jin,
- Abstract要約: 本稿では,GPRT(Reinforcement Learning)を用いて学習したトランスフォーマーと遺伝的プログラミング(GP)を組み合わせた革新的なアプローチを提案する。
GPRTは動的スケジューリングシナリオの複雑さに対処するように設計されている。
この統合アプローチの有効性は,コンテナターミナルトラックスケジューリングの実用化を通じて実証される。
- 参考スコア(独自算出の注目度): 29.035522290692487
- License:
- Abstract: Dynamic scheduling in real-world environments often struggles to adapt to unforeseen disruptions, making traditional static scheduling methods and human-designed heuristics inadequate. This paper introduces an innovative approach that combines Genetic Programming (GP) with a Transformer trained through Reinforcement Learning (GPRT), specifically designed to tackle the complexities of dynamic scheduling scenarios. GPRT leverages the Transformer to refine heuristics generated by GP while also seeding and guiding the evolution of GP. This dual functionality enhances the adaptability and effectiveness of the scheduling heuristics, enabling them to better respond to the dynamic nature of real-world tasks. The efficacy of this integrated approach is demonstrated through a practical application in container terminal truck scheduling, where the GPRT method outperforms traditional GP, standalone Transformer methods, and other state-of-the-art competitors. The key contribution of this research is the development of the GPRT method, which showcases a novel combination of GP and Reinforcement Learning (RL) to produce robust and efficient scheduling solutions. Importantly, GPRT is not limited to container port truck scheduling; it offers a versatile framework applicable to various dynamic scheduling challenges. Its practicality, coupled with its interpretability and ease of modification, makes it a valuable tool for diverse real-world scenarios.
- Abstract(参考訳): 現実の環境での動的スケジューリングは、しばしば予期せぬ破壊に適応するのに苦労し、従来の静的スケジューリング手法と人間設計のヒューリスティックスは不十分である。
本稿では、遺伝的プログラミング(GP)と強化学習(GPRT)で訓練されたトランスフォーマーを組み合わせた革新的な手法を提案する。
GPRTはTransformerを利用してGPによって生成されるヒューリスティックを洗練し、GPの進化を誘導する。
この二重機能によりスケジューリングヒューリスティックスの適応性と有効性が向上し、現実のタスクの動的な性質によりよく対応できる。
この統合アプローチの有効性は、GPRT法が従来のGP、スタンドアロンのTransformer法、その他の最先端の競合よりも優れているコンテナターミナルトラックスケジューリングの実践的応用を通じて実証されている。
この研究の重要な貢献はGPRT法の開発であり、GPと強化学習(Reinforcement Learning, RL)の新たな組み合わせによる、堅牢で効率的なスケジューリングソリューションの創出である。
重要なことは、GPRTはコンテナポートトラックスケジューリングに限らず、様々な動的スケジューリング課題に適用可能な汎用的なフレームワークを提供する。
その実用性と、解釈可能性と変更の容易さが組み合わさって、様々な現実世界のシナリオに価値あるツールとなっている。
関連論文リスト
- OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization [1.7180235064112577]
制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。
最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
論文 参考訳(メタデータ) (2025-01-30T22:52:40Z) - Diffusion-Based Planning for Autonomous Driving with Flexible Guidance [19.204115959760788]
閉ループ計画のための新しい変圧器ベース拡散プランナを提案する。
本モデルは,予測タスクと計画タスクの協調モデリングを支援する。
様々な運転スタイルで頑健な伝達性を持つ最先端の閉ループ性能を実現する。
論文 参考訳(メタデータ) (2025-01-26T15:49:50Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - SCoTT: Wireless-Aware Path Planning with Vision Language Models and Strategic Chains-of-Thought [78.53885607559958]
複雑な無線環境における経路計画を実現するために,視覚言語モデル(VLM)を用いた新しい手法を提案する。
この目的のために、実世界の無線レイトレーシングデータを用いたデジタルツインからの洞察を探索する。
その結果, SCoTT はDP-WA* と比較して非常に近い平均経路ゲインを実現し, 同時に一貫した経路長が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Learning-enabled Flexible Job-shop Scheduling for Scalable Smart
Manufacturing [11.509669981978874]
スマートマニュファクチャリングシステムでは、生産性を最大化するためのソリューションを最適化するために、輸送制約付きフレキシブルなジョブショップスケジューリングが不可欠である。
近年, 深部強化学習(DRL)に基づくFJSPT法の開発が, 大規模一般化の課題に直面している。
Heterogeneous Graph Scheduler (HGS) と呼ばれる新しいグラフベースのDRL法を導入する。
論文 参考訳(メタデータ) (2024-02-14T06:49:23Z) - Transformer-based Planning for Symbolic Regression [18.90700817248397]
シンボリック・レグレッションのためのトランスフォーマーに基づく計画戦略であるTPSRを提案する。
従来の復号法とは異なり、TPSRは精度や複雑さなど、微分不可能なフィードバックの統合を可能にする。
我々の手法は最先端の手法より優れており、モデルの適合・複雑性トレードオフ、象徴的能力、騒音に対する堅牢性を高めている。
論文 参考訳(メタデータ) (2023-03-13T03:29:58Z) - Active Learning of Piecewise Gaussian Process Surrogates [2.5399204134718096]
本研究では,Jump GPサロゲートを能動的に学習する手法を開発した。
ジャンプGPは、設計空間の領域において連続であるが、不連続である。
本研究では,Jump GPモデルのバイアスとばらつきを推定する手法を開発した。
論文 参考訳(メタデータ) (2023-01-20T20:25:50Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Incremental Ensemble Gaussian Processes [53.3291389385672]
本稿では,EGPメタラーナーがGP学習者のインクリメンタルアンサンブル(IE-) GPフレームワークを提案し,それぞれが所定のカーネル辞書に属するユニークなカーネルを持つ。
各GP専門家は、ランダムな特徴ベースの近似を利用してオンライン予測とモデル更新を行い、そのスケーラビリティを生かし、EGPメタラーナーはデータ適応重みを生かし、熟練者ごとの予測を合成する。
新たなIE-GPは、EGPメタラーナーおよび各GP学習者内における構造化力学をモデル化することにより、時間変化関数に対応するように一般化される。
論文 参考訳(メタデータ) (2021-10-13T15:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。