論文の概要: RL-TIME: Reinforcement Learning-based Task Replication in Multicore Embedded Systems
- arxiv url: http://arxiv.org/abs/2503.12677v1
- Date: Sun, 16 Mar 2025 22:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:58:41.764899
- Title: RL-TIME: Reinforcement Learning-based Task Replication in Multicore Embedded Systems
- Title(参考訳): RL-TIME:マルチコア組み込みシステムにおける強化学習に基づくタスクレプリケーション
- Authors: Roozbeh Siyadatzadeh, Mohsen Ansari, Muhammad Shafique, Alireza Ejlali,
- Abstract要約: タスクレプリケーションは、タスクの実行を重複させて一時的な障害と永続的な障害を処理することで、信頼性を向上させることができる。
既存の設計時メソッドは通常、最悪のケース条件に基づいてレプリカの数を選択する。
実システム条件に応じてレプリカ数を動的に決定する強化学習に基づくRL-TIMEを提案する。
- 参考スコア(独自算出の注目度): 6.184592401883041
- License:
- Abstract: Embedded systems power many modern applications and must often meet strict reliability, real-time, thermal, and power requirements. Task replication can improve reliability by duplicating a task's execution to handle transient and permanent faults, but blindly applying replication often leads to excessive overhead and higher temperatures. Existing design-time methods typically choose the number of replicas based on worst-case conditions, which can waste resources under normal operation. In this paper, we present RL-TIME, a reinforcement learning-based approach that dynamically decides the number of replicas according to actual system conditions. By considering both the reliability target and a core-level Thermal Safe Power (TSP) constraint at run-time, RL-TIME adapts the replication strategy to avoid unnecessary overhead and overheating. Experimental results show that, compared to state-of-the-art methods, RL-TIME reduces power consumption by 63%, increases schedulability by 53%, and respects TSP 72% more often.
- Abstract(参考訳): 組み込みシステムは現代の多くのアプリケーションに電力を供給し、しばしば厳格な信頼性、リアルタイム、熱、電力要求を満たす必要がある。
タスクのレプリケーションは、一時的な障害や永続的な障害を処理するためにタスクの実行を重複させることで信頼性を向上させることができる。
既存の設計時メソッドでは、通常、運用時にリソースを浪費する最悪の状況に基づいてレプリカの数を選択するのが一般的である。
本稿では,実システム条件に応じてレプリカ数を動的に決定する強化学習に基づくRL-TIMEを提案する。
信頼性目標とコアレベルの熱安全電力(TSP)制約の両方を実行時に考慮し、RL-TIMEは不要なオーバーヘッドや過熱を避けるためにレプリケーション戦略を適用する。
実験の結果,RL-TIMEは最先端手法と比較して消費電力を63%削減し,スケジューリング可能性を53%向上し,TSPを72%高めていることがわかった。
関連論文リスト
- A Reinforcement Learning-Based Task Mapping Method to Improve the Reliability of Clustered Manycores [0.0]
本稿では,マルチコアシステムの信頼性向上を目的とした強化学習(RL)に基づくタスクマッピング手法を提案する。
この方法は、binパッキング、Task-to-binマッピング、Task-to-coreマッピングを含む3つのステップから構成される。
提案手法の有効性をSPLASH2およびPARSECベンチマークスイートアプリケーションを用いて16,32,64コアシステムで評価した。
論文 参考訳(メタデータ) (2024-12-26T20:08:10Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Event-Triggered Reinforcement Learning Based Joint Resource Allocation for Ultra-Reliable Low-Latency V2X Communications [10.914558012458425]
6G対応車載ネットワークは、安全クリティカルな情報をタイムリーに提供するための低遅延通信(URLLC)を確保するという課題に直面している。
車両間通信システム(V2X)の従来のリソース割り当てスキームは、従来の復号法に基づくアルゴリズムに依存している。
論文 参考訳(メタデータ) (2024-07-18T23:55:07Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Fair and Efficient Distributed Edge Learning with Hybrid Multipath TCP [62.81300791178381]
無線による分散エッジ学習のボトルネックは、コンピューティングから通信へと移行した。
DEL用の既存のTCPベースのデータネットワークスキームは、アプリケーションに依存しず、アプリケーション層要求に応じて調整を施さない。
DELのためのモデルベースと深部強化学習(DRL)に基づくMP TCPを組み合わせたハイブリッドマルチパスTCP(MP TCP)を開発した。
論文 参考訳(メタデータ) (2022-11-03T09:08:30Z) - Analysis of Reinforcement Learning for determining task replication in
workflows [0.0]
ボランティアコンピューティングリソースの実行は予測不可能につながり、実行時間を大幅に増加させる。
これは、システムとエネルギー消費の潜在的な増加を犠牲にしている。
そこで本研究では,RL(Reinforcement Learning, 強化学習)を用いることにより, システムが最適なレプリカ数を学習し, 即座に完了する負荷量を増やすとともに, レプリカが役に立たない場合に, システム上の追加のワークロードを最小限に抑えることを提案する。
論文 参考訳(メタデータ) (2022-09-14T12:53:21Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。