Fugu-MT 論文翻訳(概要): Enhancing Adaptive Mixed-Criticality Scheduling with Deep Reinforcement Learning

論文の概要: Enhancing Adaptive Mixed-Criticality Scheduling with Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2411.00572v1
Date: Fri, 01 Nov 2024 13:29:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.293086
Title: Enhancing Adaptive Mixed-Criticality Scheduling with Deep Reinforcement Learning
Title（参考訳）: 深層強化学習による適応型混合臨界スケジューリングの強化
Authors: Bruno Mendes, Pedro F. Souto, Pedro C. Diniz,
Abstract要約: 我々は,Deep-Q Networkに基づく深層強化学習(DRL)アプローチにより,適応混合臨界(AMC)を強化した。 DRLエージェントはオフラインで訓練され、実行時に予算超過を避けるためにタスクの低臨界度予算を調整する。その結果、各タスクの予算が実行時間分布のサンプリングに基づいて選択された場合でも、エージェントは予算オーバーランを少なくとも50%削減できることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adaptive Mixed-Criticality (AMC) is a fixed-priority preemptive scheduling algorithm for mixed-criticality hard real-time systems. It dominates many other scheduling algorithms for mixed-criticality systems, but does so at the cost of occasionally dropping jobs of less important/critical tasks, when low-priority jobs overrun their time budgets. In this paper we enhance AMC with a deep reinforcement learning (DRL) approach based on a Deep-Q Network. The DRL agent is trained off-line, and at run-time adjusts the low-criticality budgets of tasks to avoid budget overruns, while ensuring that no job misses its deadline if it does not overrun its budget. We have implemented and evaluated this approach by simulating realistic workloads from the automotive domain. The results show that the agent is able to reduce budget overruns by at least up to 50%, even when the budget of each task is chosen based on sampling the distribution of its execution time. To the best of our knowledge, this is the first use of DRL in AMC reported in the literature.
Abstract（参考訳）: Adaptive Mixed-Criticality (AMC) は、混合臨界ハードリアルタイムシステムのための固定優先度プリエンプティブスケジューリングアルゴリズムである。混合臨界システムの他の多くのスケジューリングアルゴリズムを支配しているが、低優先度のジョブが時間予算を超過した場合に、重要でないタスクやクリティカルなタスクのジョブを一時的に停止するコストがかかる。本稿では,Deep-Q Networkに基づく深部強化学習(DRL)アプローチによりAMCを強化する。 DRLエージェントはオフラインで訓練され、実行時に予算超過を避けるためにタスクの低臨界度予算を調整する。我々は、自動車領域から現実的なワークロードをシミュレートすることで、このアプローチを実装し、評価した。その結果、各タスクの予算が実行時間分布のサンプリングに基づいて選択された場合でも、エージェントは予算オーバーランを少なくとも50%削減できることがわかった。我々の知る限りでは、文献で報告されたAMCにおけるDRLの使用はこれが初めてである。

関連論文リスト

Steering LLM Thinking with Budget Guidance [48.65894557568655]
予算指導は、微調整を必要とせず、目標予算に向けてLSMの推論プロセスを操る方法である。提案手法では,ガンマ分布を残りの思考長にわたってモデル化する軽量な予測器を提案する。この信号は、生成をソフトでトークンレベルの方法でガイドするために使用され、全体の推論トレースが指定された思考予算に従うことを保証する。
論文参考訳（メタデータ） (2025-06-16T17:57:05Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Reduce Computational Cost In Deep Reinforcement Learning Via Randomized Policy Learning [8.559995591255811]
強化学習の最近の進歩は、ニューラルネットワークを活用して、さまざまな制御タスクにおける最先端のパフォーマンスを実現している。これらの成功は、ディープニューラルネットワークのトレーニングには相当な時間とデータを必要とするため、大きな計算リソースのコストがかかることが多い。本稿では,ランダム化されたニューラルネットワークを用いて,高い性能を維持しながら計算コストを大幅に削減するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-25T09:17:22Z)
Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。 PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文参考訳（メタデータ） (2025-02-07T00:06:17Z)
ATA: Adaptive Task Allocation for Efficient Resource Management in Distributed Machine Learning [54.08906841213777]
非同期手法は分散機械学習における計算の並列化の基礎となる。本稿では,不均一かつランダムな計算時間分布に適応するATA(Adaptive Task Allocation)を提案する。 ATAは最適なタスク割り当てを識別し、計算時間に関する事前の知識を持つメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2025-02-02T12:22:26Z)
Dependency-Aware CAV Task Scheduling via Diffusion-Based Reinforcement Learning [12.504232513881828]
動的無人航空機支援型コネクテッド自動運転車(CAV)のための新しい依存性を考慮したタスクスケジューリング手法を提案する。平均タスク完了時間を最小化することを目的として,共同スケジューリング優先度とサブタスク割り当て最適化問題を定式化する。本稿では,Synthetic DDQNをベースとしたSubtasks Schedulingという拡散型強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-11-27T11:07:31Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Reward-Machine-Guided, Self-Paced Reinforcement Learning [30.42334205249944]
報奨機による自己評価強化学習アルゴリズムを開発した。提案アルゴリズムは,既存のベースラインが意味のある進歩を達成できない場合でも,最適な動作を確実に達成する。また、カリキュラムの長さを減らし、カリキュラム生成プロセスのばらつきを最大4分の1まで減らします。
論文参考訳（メタデータ） (2023-05-25T22:13:37Z)
A Memetic Algorithm with Reinforcement Learning for Sociotechnical Production Scheduling [0.0]
本稿では、フレキシブルジョブショップスケジューリング問題(DRC-FJSSP)に深層強化学習(DRL)を適用したメメティックアルゴリズムを提案する。産業における研究プロジェクトから、フレキシブルマシン、フレキシブルなヒューマンワーカー、作業能力、セットアップと処理操作、材料到着時間、材料製造の請求書の並列タスク、シーケンス依存のセットアップ時間、人間と機械のコラボレーションにおける(一部)自動化タスクを検討する必要性を認識します。
論文参考訳（メタデータ） (2022-12-21T11:24:32Z)
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。 OptiDICEは最先端の手法と競合して動作することを示す。
論文参考訳（メタデータ） (2021-06-21T00:43:30Z)
Learning to Schedule [3.5408022972081685]
本稿では,ジョブが生み出す累積保持コストを最小限に抑えるための学習・スケジューリングアルゴリズムを提案する。各タイムスロットにおいて、サーバはシステムに残されているジョブのランダム保持コストを受信しながらジョブを処理できる。
論文参考訳（メタデータ） (2021-05-28T08:04:06Z)
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文参考訳（メタデータ） (2021-05-17T20:16:46Z)
Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文参考訳（メタデータ） (2021-05-01T10:18:34Z)
Smart Scheduling based on Deep Reinforcement Learning for Cellular Networks [18.04856086228028]
深部強化学習(DRL)に基づくスマートスケジューリング手法を提案する。実装フレンドリーな設計、すなわちエージェントのためのスケーラブルなニューラルネットワーク設計と仮想環境トレーニングフレームワークを提供する。本研究では, DRLベースのスマートスケジューリングが従来のスケジューリング方式を上回り, 実用システムにも適用できることを示した。
論文参考訳（メタデータ） (2021-03-22T02:09:16Z)
Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文参考訳（メタデータ） (2021-01-17T04:55:30Z)
Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-06-26T17:50:26Z)
Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文参考訳（メタデータ） (2020-04-24T15:48:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。