論文の概要: Hierarchical Deep Reinforcement Learning Approach for Multi-Objective
Scheduling With Varying Queue Sizes
- arxiv url: http://arxiv.org/abs/2007.09256v1
- Date: Fri, 17 Jul 2020 21:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 13:30:00.641155
- Title: Hierarchical Deep Reinforcement Learning Approach for Multi-Objective
Scheduling With Varying Queue Sizes
- Title(参考訳): 階層型深層強化学習によるキューサイズ可変多目的スケジューリング
- Authors: Yoni Birman, Ziv Ido, Gilad Katz and Asaf Shabtai
- Abstract要約: MERLINは、多目的タスクスケジューリングのための頑健でモジュール的で、ほぼ最適のDRLベースのアプローチである。
MERLINは、個々のタスクの処理のための1つのニューラルネットワークと、全体のキューのスケジューリングのためのもう1つのニューラルネットワークを作成することで、MOTS問題に階層的なアプローチを適用する。
より小さく、トレーニング時間の短縮に加えて、結果として得られるアーキテクチャは、アイテムがキュー内の位置に関わらず、同じ方法で処理されることを保証する。
- 参考スコア(独自算出の注目度): 19.457882940942284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-objective task scheduling (MOTS) is the task scheduling while
optimizing multiple and possibly contradicting constraints. A challenging
extension of this problem occurs when every individual task is a
multi-objective optimization problem by itself. While deep reinforcement
learning (DRL) has been successfully applied to complex sequential problems,
its application to the MOTS domain has been stymied by two challenges. The
first challenge is the inability of the DRL algorithm to ensure that every item
is processed identically regardless of its position in the queue. The second
challenge is the need to manage large queues, which results in large neural
architectures and long training times. In this study we present MERLIN, a
robust, modular and near-optimal DRL-based approach for multi-objective task
scheduling. MERLIN applies a hierarchical approach to the MOTS problem by
creating one neural network for the processing of individual tasks and another
for the scheduling of the overall queue. In addition to being smaller and with
shorted training times, the resulting architecture ensures that an item is
processed in the same manner regardless of its position in the queue.
Additionally, we present a novel approach for efficiently applying DRL-based
solutions on very large queues, and demonstrate how we effectively scale MERLIN
to process queue sizes that are larger by orders of magnitude than those on
which it was trained. Extensive evaluation on multiple queue sizes show that
MERLIN outperforms multiple well-known baselines by a large margin (>22%).
- Abstract(参考訳): マルチ目的タスクスケジューリング(multi-objective task scheduling、mots)は、複数の制約を最適化しながらタスクスケジューリングである。
この問題の挑戦的な拡張は、各タスクがそれ自体が多目的最適化問題であるときに発生する。
深部強化学習(DRL)は複雑な逐次問題にうまく適用されているが、MOTS領域への応用は2つの課題に悩まされている。
第1の課題は、DRLアルゴリズムがキュー内の位置に関わらず、すべてのアイテムが同一に処理されることを保証することができないことである。
第2の課題は、大規模なキューを管理する必要があることだ。
本研究では、多目的タスクスケジューリングのための頑健でモジュラーでほぼ最適なDRLベースのアプローチであるMERLINを提案する。
merlinはmots問題に階層的アプローチを適用し、個々のタスクの処理とキュー全体のスケジューリングのためのニューラルネットワークを作成する。
より小さく、トレーニング時間の短縮に加えて、結果として得られるアーキテクチャは、アイテムがキュー内の位置に関わらず、同じ方法で処理されることを保証する。
さらに、DRLベースのソリューションを非常に大きなキューに効率的に適用するための新しいアプローチを提案し、MERLINをいかに効果的にスケールして、トレーニングされたキューよりも桁違いに大きいキューサイズを処理するかを示す。
複数のキューサイズに対する大規模な評価は、MERLINが複数の有名なベースラインを大きなマージン(22%)で上回ることを示している。
関連論文リスト
- Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - Multi-Objective Optimization for Sparse Deep Multi-Task Learning [0.0]
重み付きチェビシェフスキャラライゼーションを用いたディープニューラルネットワーク(DNN)のトレーニングのための多目的最適化アルゴリズムを提案する。
本研究の目的は,DNNモデルの持続可能性問題,特にDeep Multi-Taskモデルに焦点をあてることである。
論文 参考訳(メタデータ) (2023-08-23T16:42:27Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Generalized Conflict-directed Search for Optimal Ordering Problems [18.231677739397973]
本稿では,イベントの全順序を最適に生成する分枝順序付け法GCDOを提案する。
汎用的な紛争を推論する能力があるため、GCDOは以前の競合指向アプローチCDITOよりも高品質の総注文を見つけるのにはるかに効率的です。
論文 参考訳(メタデータ) (2021-03-31T18:46:48Z) - Joint Resource Management for MC-NOMA: A Deep Reinforcement Learning
Approach [39.54978539962088]
本稿では, 共同資源管理(JRM)への新規かつ効果的な深層強化学習(DRL)に基づくアプローチを提案する。
実用的なマルチキャリア非直交多重アクセス(MC-NOMA)システムでは、ハードウェアの感度と不完全な連続干渉キャンセル(SIC)が考慮されます。
DRL-JRM方式はシステムスループットと干渉耐性の観点から既存の方式よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-29T06:52:19Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。