論文の概要: Learning to Schedule Online Tasks with Bandit Feedback
- arxiv url: http://arxiv.org/abs/2402.16463v1
- Date: Mon, 26 Feb 2024 10:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 13:58:12.798475
- Title: Learning to Schedule Online Tasks with Bandit Feedback
- Title(参考訳): 帯域フィードバックによるオンラインタスクのスケジュール学習
- Authors: Yongxin Xu, Shangshang Wang, Hengquan Guo, Xin Liu, Ziyu Shao
- Abstract要約: オンラインタスクスケジューリングは、クラウドコンピューティングやクラウドソーシングにおけるタスク集約型アプリケーションにおいて重要な役割を果たす。
本稿では,二重最適化学習に基づくRobins-Monro(DOL-RM)アルゴリズムを提案する。
DOL-RMは、報酬対コスト比の楽観的な推定と決定モジュールを組み込んだ学習モジュールを統合する。
- 参考スコア(独自算出の注目度): 7.671139712158846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online task scheduling serves an integral role for task-intensive
applications in cloud computing and crowdsourcing. Optimal scheduling can
enhance system performance, typically measured by the reward-to-cost ratio,
under some task arrival distribution. On one hand, both reward and cost are
dependent on task context (e.g., evaluation metric) and remain black-box in
practice. These render reward and cost hard to model thus unknown before
decision making. On the other hand, task arrival behaviors remain sensitive to
factors like unpredictable system fluctuation whereby a prior estimation or the
conventional assumption of arrival distribution (e.g., Poisson) may fail. This
implies another practical yet often neglected challenge, i.e., uncertain task
arrival distribution. Towards effective scheduling under a stationary
environment with various uncertainties, we propose a double-optimistic learning
based Robbins-Monro (DOL-RM) algorithm. Specifically, DOL-RM integrates a
learning module that incorporates optimistic estimation for reward-to-cost
ratio and a decision module that utilizes the Robbins-Monro method to
implicitly learn task arrival distribution while making scheduling decisions.
Theoretically, DOL-RM achieves convergence gap and no regret learning with a
sub-linear regret of $O(T^{3/4})$, which is the first result for online task
scheduling under uncertain task arrival distribution and unknown reward and
cost. Our numerical results in a synthetic experiment and a real-world
application demonstrate the effectiveness of DOL-RM in achieving the best
cumulative reward-to-cost ratio compared with other state-of-the-art baselines.
- Abstract(参考訳): オンラインタスクスケジューリングは、クラウドコンピューティングやクラウドソーシングにおけるタスク集約アプリケーションにおいて重要な役割を果たす。
最適スケジューリングは、通常、あるタスク到着分布の下で、報酬対コスト比によって測定されるシステム性能を向上させることができる。
一方、報酬とコストはタスクコンテキスト(例えば評価基準)に依存しており、実際にはブラックボックスのままである。
これらの報酬とコストは、意思決定前に未知のモデルを作るのが難しい。
一方、タスク到着行動は予測不能なシステム変動などの要因に敏感であり、事前推定や従来の到着分布の仮定(例えばPoisson)が失敗する可能性がある。
これは別の実用的かつしばしば無視される課題、すなわち不確実なタスク到着分布を意味する。
様々な不確実性を有する定常環境下での効果的なスケジューリングに向けて, 二元最適化学習に基づくrobbins-monro (dol-rm) アルゴリズムを提案する。
具体的には,報酬対コスト比を楽観的に推定する学習モジュールと,Robins-Monro法を用いてスケジューリング決定を行いながら,暗黙的にタスク到着分布を学習する決定モジュールを統合する。
理論的には、DOL-RMは収束ギャップを達成し、不確実なタスク到着分布と未知の報酬とコストの下でオンラインタスクスケジューリングを行う最初の結果である$O(T^{3/4})$のサブ線形後悔を伴う後悔の学習を行わない。
合成実験と実世界の応用による数値計算の結果,DOL-RMが他の最先端のベースラインと比較して,最高の累積報酬対コスト比を達成できることを示す。
関連論文リスト
- Beyond Expectations: Learning with Stochastic Dominance Made Practical [88.06211893690964]
支配は、不確実な結果で意思決定を行うためのリスク-逆の選好をモデル化する。
理論上は魅力的だが、機械学習における優位性の応用は乏しい。
まず支配の概念を一般化し、任意の確率変数の任意のペア間の比較を可能にする。
次に、優位性の観点から最適解を見つけるための単純で効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2024-02-05T03:21:23Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Online Task Scheduling for Fog Computing with Multi-Resource Fairness [9.959176097194675]
フォグコンピューティングシステムでは、オンラインタスクスケジューリング(すなわち、エンドデバイスから連続的に生成されるタスクのリソース割り当てを決定する)が重要な課題である。
オンラインタスクスケジューリング方式であるFairTSを提案する。
シミュレーションの結果、FairTSはタスクの遅くなり、リソースの公平性が向上し、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2020-08-01T07:57:40Z) - Regularized Online Allocation Problems: Fairness and Beyond [7.433931244705934]
本稿では, 総資源消費に作用する非線形正規化器を含む変種である, 語彙化オンライン割当問題を紹介する。
この問題では、要求は時間とともに繰り返し届き、各要求に対して、意思決定者は報酬を生成しリソースを消費するアクションを取る必要があります。
目的は、資源制約を受ける加算可分な報酬と非分離可正則化器の値とを同時に最大化することである。
論文 参考訳(メタデータ) (2020-07-01T14:24:58Z) - Group-Fair Online Allocation in Continuous Time [27.32936573198251]
公平性を考慮した継続的オンライン学習問題を考察する。
この定式化は、報酬最大化、最大値フェア、比例値アロケーションルールを回復させる。
本稿では,時間平均に対する二段階最適化に基づく新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-11T21:56:53Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。