論文の概要: Analysis of Reinforcement Learning for determining task replication in
workflows
- arxiv url: http://arxiv.org/abs/2209.13531v1
- Date: Wed, 14 Sep 2022 12:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 23:41:24.392273
- Title: Analysis of Reinforcement Learning for determining task replication in
workflows
- Title(参考訳): ワークフローにおけるタスク複製決定のための強化学習の分析
- Authors: Andrew Stephen McGough, Matthew Forshaw
- Abstract要約: ボランティアコンピューティングリソースの実行は予測不可能につながり、実行時間を大幅に増加させる。
これは、システムとエネルギー消費の潜在的な増加を犠牲にしている。
そこで本研究では,RL(Reinforcement Learning, 強化学習)を用いることにより, システムが最適なレプリカ数を学習し, 即座に完了する負荷量を増やすとともに, レプリカが役に立たない場合に, システム上の追加のワークロードを最小限に抑えることを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Executing workflows on volunteer computing resources where individual tasks
may be forced to relinquish their resource for the resource's primary use leads
to unpredictability and often significantly increases execution time. Task
replication is one approach that can ameliorate this challenge. This comes at
the expense of a potentially significant increase in system load and energy
consumption. We propose the use of Reinforcement Learning (RL) such that a
system may `learn' the `best' number of replicas to run to increase the number
of workflows which complete promptly whilst minimising the additional workload
on the system when replicas are not beneficial. We show, through simulation,
that we can save 34% of the energy consumption using RL compared to a fixed
number of replicas with only a 4% decrease in workflows achieving a pre-defined
overhead bound.
- Abstract(参考訳): 個々のタスクがリソースの一次使用のためにリソースを放棄せざるを得ない、ボランティアコンピューティングリソース上のワークフローの実行は予測不能につながり、実行時間を大幅に増加させる。
タスクレプリケーションは、この課題を改善するアプローチのひとつです。
これは、システム負荷とエネルギー消費の潜在的な増加を犠牲にしている。
そこで,本研究では,レプリカが有益でない場合にシステムに追加のワークロードを最小化しつつ,ワークフロー数を迅速に増加させるため,システムが実行すべきレプリカ数の‘ベスト’を‘学習’できる強化学習(rl)の利用を提案する。
シミュレーションにより、あらかじめ定義されたオーバーヘッドバウンダリを達成するワークフローの4%しか減少しない固定数のレプリカと比較して、RLによるエネルギー消費量の34%を節約できることが示される。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge [25.168236693829783]
現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:40:10Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Teacher Forcing Recovers Reward Functions for Text Generation [21.186397113834506]
本稿では,教師の強制力で訓練されたモデルから直接,ステップワイズ報酬関数を導出するタスク依存型手法を提案する。
また、並列でないデータセットに対するRLトレーニングを誘導報酬関数で安定化するための簡単な修正も提案する。
論文 参考訳(メタデータ) (2022-10-17T02:48:58Z) - PROMPT: Learning Dynamic Resource Allocation Policies for Network
Applications [16.812611987082082]
本稿では、プロアクティブな予測を用いて強化学習コントローラを誘導する新しいリソース割り当てフレームワークPROMPTを提案する。
本稿では,PROMPTが4.2倍少ない違反を発生させ,政策違反の深刻度を12.7倍に低減し,最善を尽くした作業負荷性能を向上し,先行作業よりも全体的な電力効率を向上することを示す。
論文 参考訳(メタデータ) (2022-01-19T23:34:34Z) - On-edge Multi-task Transfer Learning: Model and Practice with
Data-driven Task Allocation [20.20889051697198]
マルチタスク・トランスファー・ラーニング(MTL)におけるタスク・アロケーションは,NP完全Knapsack問題の変種であることを示す。
我々は,データ駆動型協調作業割当(DCTA)アプローチを提案し,高い計算効率でTATIMを解く。
我々のDCTAは処理時間の3.24倍を削減し、TATIMを解く際の最先端技術と比較して48.4%の省エネを図っている。
論文 参考訳(メタデータ) (2021-07-06T08:24:25Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。