Fugu-MT 論文翻訳(概要): Multi-level Explanation of Deep Reinforcement Learning-based Scheduling

論文の概要: Multi-level Explanation of Deep Reinforcement Learning-based Scheduling

arxiv url: http://arxiv.org/abs/2209.09645v1
Date: Sun, 18 Sep 2022 13:22:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-21 19:30:46.138827
Title: Multi-level Explanation of Deep Reinforcement Learning-based Scheduling
Title（参考訳）: 深層強化学習に基づくスケジューリングのマルチレベル説明
Authors: Shaojun Zhang and Chen Wang and Albert Zomaya
Abstract要約: クラスタ内の依存性を意識したジョブスケジューリングはNPハードである。最近の研究は、Deep Reinforcement Learning (DRL)がそれを解くことができることを示している。本稿では,DRLに基づくスケジューリングのポリシーを解釈するためのマルチレベル説明フレームワークを提案する。
参考スコア（独自算出の注目度）: 3.043569093713764
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Dependency-aware job scheduling in the cluster is NP-hard. Recent work shows that Deep Reinforcement Learning (DRL) is capable of solving it. It is difficult for the administrator to understand the DRL-based policy even though it achieves remarkable performance gain. Therefore the complex model-based scheduler is not easy to gain trust in the system where simplicity is favored. In this paper, we give the multi-level explanation framework to interpret the policy of DRL-based scheduling. We dissect its decision-making process to job level and task level and approximate each level with interpretable models and rules, which align with operational practices. We show that the framework gives the system administrator insights into the state-of-the-art scheduler and reveals the robustness issue in regards to its behavior pattern.
Abstract（参考訳）: クラスタ内の依存性を意識したジョブスケジューリングはNPハードである。最近の研究は、Deep Reinforcement Learning (DRL)がそれを解くことができることを示している。アドミニストレータがDRLベースのポリシーを理解することは,性能が著しく向上しても困難である。したがって、複雑なモデルベースのスケジューラは、単純さを好むシステムに対して信頼を得ることは容易ではない。本稿では,DRLに基づくスケジューリングのポリシーを解釈するためのマルチレベル説明フレームワークを提案する。意思決定プロセスをジョブレベルとタスクレベルに分類し、各レベルを運用プラクティスに合わせて解釈可能なモデルとルールで近似します。このフレームワークは,システム管理者に最先端スケジューラに関する洞察を与え,その動作パターンに関する堅牢性の問題を明らかにする。

関連論文リスト

Guided Policy Optimization under Partial Observability [36.853129816484845]
部分的に観察可能な環境下での強化学習(RL)は、不確実性の下での学習の複雑さによって大きな課題を生じさせる。本稿では,ガイドと学習者を協調訓練するフレームワークであるGPOを紹介する。理論的には、この学習方式は直接RLに匹敵する最適性を達成し、既存のアプローチに固有の重要な制限を克服する。
論文参考訳（メタデータ） (2025-05-21T12:01:08Z)
Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-16T00:53:41Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
Learning-enabled Flexible Job-shop Scheduling for Scalable Smart Manufacturing [11.509669981978874]
スマートマニュファクチャリングシステムでは、生産性を最大化するためのソリューションを最適化するために、輸送制約付きフレキシブルなジョブショップスケジューリングが不可欠である。近年, 深部強化学習(DRL)に基づくFJSPT法の開発が, 大規模一般化の課題に直面している。 Heterogeneous Graph Scheduler (HGS) と呼ばれる新しいグラフベースのDRL法を導入する。
論文参考訳（メタデータ） (2024-02-14T06:49:23Z)
Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。実演として、$I(Z; M)$の教師付きおよび自己教師型実装を提案し、対応する最適化アルゴリズムがRLベンチマークの幅広いスペクトルにわたって顕著な一般化を示すことを実証的に示す。本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文参考訳（メタデータ） (2024-02-04T09:58:42Z)
Hierarchical Continual Reinforcement Learning via Large Language Model [15.837883929274758]
Hi-Coreはハイレベルな知識の伝達を容易にするように設計されている。大規模言語モデル(LLM)による高レベルポリシー定式化 Hi-Coreは様々なCRLタスクの処理の有効性を示しており、一般的なベースラインを上回っている。
論文参考訳（メタデータ） (2024-01-25T03:06:51Z)
Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。 SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。 SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文参考訳（メタデータ） (2023-05-18T10:37:54Z)
Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文参考訳（メタデータ） (2021-06-25T22:54:28Z)
Deep RL With Information Constrained Policies: Generalization in Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。 CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文参考訳（メタデータ） (2020-10-09T15:42:21Z)
Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文参考訳（メタデータ） (2020-07-14T17:25:27Z)
Hierarchical Reinforcement Learning as a Model of Human Task Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。このモデルは、タスクインターリービングの既知の経験的効果を再現する。その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文参考訳（メタデータ） (2020-01-04T17:53:28Z)
Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文参考訳（メタデータ） (2019-12-29T08:57:02Z)
Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文参考訳（メタデータ） (2019-02-02T20:09:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。