論文の概要: Adaptive Approach to Enhance Machine Learning Scheduling Algorithms During Runtime Using Reinforcement Learning in Metascheduling Applications
- arxiv url: http://arxiv.org/abs/2509.20520v1
- Date: Wed, 24 Sep 2025 19:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.572771
- Title: Adaptive Approach to Enhance Machine Learning Scheduling Algorithms During Runtime Using Reinforcement Learning in Metascheduling Applications
- Title(参考訳): メタスケジューリングアプリケーションにおける強化学習を用いた実行時機械学習スケジューリングアルゴリズムの適応的アプローチ
- Authors: Samer Alshaer, Ala Khalifeh, Roman Obermaisser,
- Abstract要約: 本稿では,メタスケジューラに組み込まれた適応型オンライン学習ユニットを提案する。
オンラインモードでは、強化学習は、新しいスケジューリングソリューションを継続的に探索し発見することで、重要な役割を果たす。
オンライン学習ユニット内にいくつかのRLモデルが実装され、それぞれがスケジューリングの特定の課題に対処するように設計された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Metascheduling in time-triggered architectures has been crucial in adapting to dynamic and unpredictable environments, ensuring the reliability and efficiency of task execution. However, traditional approaches face significant challenges when training Artificial Intelligence (AI) scheduling inferences offline, particularly due to the complexities involved in constructing a comprehensive Multi-Schedule Graph (MSG) that accounts for all possible scenarios. The process of generating an MSG that captures the vast probability space, especially when considering context events like hardware failures, slack variations, or mode changes, is resource-intensive and often infeasible. To address these challenges, we propose an adaptive online learning unit integrated within the metascheduler to enhance performance in real-time. The primary motivation for developing this unit stems from the limitations of offline training, where the MSG created is inherently a subset of the complete space, focusing only on the most probable and critical context events. In the online mode, Reinforcement Learning (RL) plays a pivotal role by continuously exploring and discovering new scheduling solutions, thus expanding the MSG and enhancing system performance over time. This dynamic adaptation allows the system to handle unexpected events and complex scheduling scenarios more effectively. Several RL models were implemented within the online learning unit, each designed to address specific challenges in scheduling. These models not only facilitate the discovery of new solutions but also optimize existing schedulers, particularly when stricter deadlines or new performance criteria are introduced. By continuously refining the AI inferences through real-time training, the system remains flexible and capable of meeting evolving demands, thus ensuring robustness and efficiency in large-scale, safety-critical environments.
- Abstract(参考訳): タイムトリガーアーキテクチャにおけるメタスケジューリングは、動的で予測不可能な環境に適応し、タスク実行の信頼性と効率を確保するために不可欠である。
しかしながら、従来のアプローチでは、人工知能(AI)スケジューリング推論をオフラインでトレーニングする場合、特にすべてのシナリオを考慮に入れた総合的なマルチスケジュールグラフ(MSG)の構築に関わる複雑さのために、大きな課題に直面している。
巨大な確率空間をキャプチャするMSGを生成するプロセスは、特にハードウェア障害、スラックのバリエーション、モードの変更といったコンテキストイベントを考えると、リソース集約的であり、しばしば実現不可能である。
これらの課題に対処するため,メタスケジューラに組み込まれた適応型オンライン学習ユニットを提案する。
このユニットを開発する主な動機は、オフライントレーニングの限界に起因しており、MSGは本質的には完全な空間のサブセットであり、最も確率が高く重要なコンテキストイベントのみに焦点を当てている。
オンラインモードでは、強化学習(Reinforcement Learning, RL)は、新しいスケジューリングソリューションを継続的に探索し、発見することで重要な役割を果たす。
この動的適応により、システムは予期せぬイベントや複雑なスケジューリングシナリオをより効率的に扱うことができる。
オンライン学習ユニット内にいくつかのRLモデルが実装され、それぞれがスケジューリングの特定の課題に対処するように設計された。
これらのモデルは、新しいソリューションの発見を容易にするだけでなく、特に厳格な期限や新しいパフォーマンス基準が導入された場合、既存のスケジューラを最適化する。
リアルタイムトレーニングを通じてAI推論を継続的に洗練することにより、システムはフレキシブルで、進化する要求を満たすことができ、大規模な安全クリティカルな環境において堅牢性と効率性を確保することができる。
関連論文リスト
- Simulation-Driven Reinforcement Learning in Queuing Network Routing Optimization [0.0]
本研究では、複雑な待ち行列ネットワークシステムにおけるルーティング決定を最適化するためのシミュレーション駆動強化学習(RL)フレームワークの開発に焦点をあてる。
我々は、Dyna-DDPG(Dyna-DDPG)とDyna-DDPG(Dyna-DDPG)を組み合わせた、Deep Deterministic Policy Gradient(DDPG)を利用したロバストなRLアプローチを提案する。
包括的な実験と厳密な評価は、効果的なルーティングポリシーを迅速に学習するフレームワークの能力を示している。
論文 参考訳(メタデータ) (2025-07-24T20:32:47Z) - A Production Scheduling Framework for Reinforcement Learning Under Real-World Constraints [0.0]
実世界の運用環境は、従来のスケジューリングアプローチの効率を低下させる追加の複雑さを導入します。
強化学習(RL)は、エージェントが適応的なスケジューリング戦略を学習できるようにするため、これらの課題に対処する可能性を秘めている。
本稿では,従来のJSSPの定式化を,主要な実世界の制約を組み込むことで拡張するモジュラーフレームワークを提案する。
JobShopLabは、研究開発と産業アプリケーションの両方のためのオープンソースのツールだ。
論文 参考訳(メタデータ) (2025-06-16T14:50:26Z) - Agile Reinforcement Learning for Real-Time Task Scheduling in Edge Computing [0.3277163122167434]
本研究では,エッジコンピューティングにおけるソフトリアルタイムアプリケーションをスケジューリングするためのアジャイル強化学習(aRL)を提案する。
RLエージェントは情報探索を行い、関連するアクションのみを実行する。
実験により、情報探索法とアクションマスキング法の組み合わせにより、aRLは高ヒット比を達成でき、ベースラインアプローチよりも早く収束できることが示された。
論文 参考訳(メタデータ) (2025-06-10T14:38:07Z) - Offline Critic-Guided Diffusion Policy for Multi-User Delay-Constrained Scheduling [29.431945795881976]
本稿では,新しいオフライン強化学習アルゴリズムである underlineScheduling を提案する。
プリコンパイルされたEmphofflineデータから、効率的なスケジューリングポリシを純粋に学習する。
我々は、SOCDは、部分的に観測可能で大規模な環境を含む、様々なシステム力学に耐性があることを示します。
論文 参考訳(メタデータ) (2025-01-22T15:13:21Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Self-Sustaining Multiple Access with Continual Deep Reinforcement
Learning for Dynamic Metaverse Applications [17.436875530809946]
Metaverseは,さまざまな世界で構成される仮想環境の構築を目的とした,新たなパラダイムだ。
このような動的で複雑なシナリオに対処するためには、自己維持戦略を採用する方法が考えられる。
本稿では,知的エージェントのスループットを最大化するために,マルチチャネル環境におけるマルチアクセスの問題について検討する。
論文 参考訳(メタデータ) (2023-09-18T22:02:47Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。
タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。
実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2022-02-01T07:51:24Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。