論文の概要: Multi-level Explanation of Deep Reinforcement Learning-based Scheduling
- arxiv url: http://arxiv.org/abs/2209.09645v1
- Date: Sun, 18 Sep 2022 13:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-09-21 19:30:46.138827
- Title: Multi-level Explanation of Deep Reinforcement Learning-based Scheduling
- Title(参考訳): 深層強化学習に基づくスケジューリングのマルチレベル説明
- Authors: Shaojun Zhang and Chen Wang and Albert Zomaya
- Abstract要約: クラスタ内の依存性を意識したジョブスケジューリングはNPハードである。
最近の研究は、Deep Reinforcement Learning (DRL)がそれを解くことができることを示している。
本稿では,DRLに基づくスケジューリングのポリシーを解釈するためのマルチレベル説明フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.043569093713764
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dependency-aware job scheduling in the cluster is NP-hard. Recent work shows
that Deep Reinforcement Learning (DRL) is capable of solving it. It is
difficult for the administrator to understand the DRL-based policy even though
it achieves remarkable performance gain. Therefore the complex model-based
scheduler is not easy to gain trust in the system where simplicity is favored.
In this paper, we give the multi-level explanation framework to interpret the
policy of DRL-based scheduling. We dissect its decision-making process to job
level and task level and approximate each level with interpretable models and
rules, which align with operational practices. We show that the framework gives
the system administrator insights into the state-of-the-art scheduler and
reveals the robustness issue in regards to its behavior pattern.
- Abstract(参考訳): クラスタ内の依存性を意識したジョブスケジューリングはNPハードである。
最近の研究は、Deep Reinforcement Learning (DRL)がそれを解くことができることを示している。
アドミニストレータがDRLベースのポリシーを理解することは,性能が著しく向上しても困難である。
したがって、複雑なモデルベースのスケジューラは、単純さを好むシステムに対して信頼を得ることは容易ではない。
本稿では,DRLに基づくスケジューリングのポリシーを解釈するためのマルチレベル説明フレームワークを提案する。
意思決定プロセスをジョブレベルとタスクレベルに分類し、各レベルを運用プラクティスに合わせて解釈可能なモデルとルールで近似します。
このフレームワークは,システム管理者に最先端スケジューラに関する洞察を与え,その動作パターンに関する堅牢性の問題を明らかにする。
関連論文リスト
- Zero-Shot Instruction Following in RL via Structured LTL Representations [50.41415009303967]
マルチタスク強化学習では、エージェントが訓練中に見えない新しいタスクをゼロショットで実行しなければならない。
この設定では、最近、時間的に拡張された構造化タスクを特定するための強力なフレームワークとして線形時間論理が採用されている。
既存のアプローチはジェネラリストの政策を訓練することに成功しているが、仕様に固有のリッチな論理的・時間的構造を効果的に捉えるのに苦労することが多い。
論文 参考訳(メタデータ) (2026-02-15T23:22:50Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Zero-Shot Instruction Following in RL via Structured LTL Representations [54.08661695738909]
リニア時間論理(LTL)は、強化学習(RL)エージェントのための複雑で構造化されたタスクを特定するための魅力的なフレームワークである。
近年の研究では、命令を有限オートマトンとして解釈し、タスク進捗を監視する高レベルプログラムと見なすことができ、テスト時に任意の命令を実行することのできる1つのジェネラリストポリシーを学習できることが示されている。
本稿では,この欠点に対処する任意の命令に従うために,マルチタスクポリシーを学習するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-02T10:44:51Z) - Curriculum Design for Trajectory-Constrained Agent: Compressing Chain-of-Thought Tokens in LLMs [26.165537937650413]
デプロイメント中に厳格な制約の下で運用するためのトレーニングエージェントは、重大な課題を提示する。
本稿では,訓練中の制約を徐々に厳しくし,エージェントが段階的にデプロイメント要求をマスターできるようにするカリキュラム学習戦略を提案する。
論文 参考訳(メタデータ) (2025-11-04T16:14:56Z) - Expediting Reinforcement Learning by Incorporating Knowledge About Temporal Causality in the Environment [6.914710674738284]
強化学習アルゴリズムは、報酬フィードバックが不十分で、環境内の複雑なイベントのシーケンスに依存するタスクに対して最適なポリシーを学ぶのに苦労する。
本稿では,時間論理に基づく因果関係図を報酬形式に組み込む手法を提案する。
論文 参考訳(メタデータ) (2025-10-17T09:11:26Z) - Instructions are all you need: Self-supervised Reinforcement Learning for Instruction Following [58.60470643433354]
言語モデルは、現実世界のアプリケーションにとって重要なマルチ制約命令に従うのに苦労することが多い。
本稿では,外部監督に依存しないラベルフリーの自己監督型強化学習フレームワークを提案する。
本稿では,厳密な報酬問題に対処するために,制約分解戦略と効率的な制約ワイドバイナリ分類を導入する。
論文 参考訳(メタデータ) (2025-10-16T08:24:44Z) - Guided Policy Optimization under Partial Observability [36.853129816484845]
部分的に観察可能な環境下での強化学習(RL)は、不確実性の下での学習の複雑さによって大きな課題を生じさせる。
本稿では,ガイドと学習者を協調訓練するフレームワークであるGPOを紹介する。
理論的には、この学習方式は直接RLに匹敵する最適性を達成し、既存のアプローチに固有の重要な制限を克服する。
論文 参考訳(メタデータ) (2025-05-21T12:01:08Z) - Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Learning-enabled Flexible Job-shop Scheduling for Scalable Smart
Manufacturing [11.509669981978874]
スマートマニュファクチャリングシステムでは、生産性を最大化するためのソリューションを最適化するために、輸送制約付きフレキシブルなジョブショップスケジューリングが不可欠である。
近年, 深部強化学習(DRL)に基づくFJSPT法の開発が, 大規模一般化の課題に直面している。
Heterogeneous Graph Scheduler (HGS) と呼ばれる新しいグラフベースのDRL法を導入する。
論文 参考訳(メタデータ) (2024-02-14T06:49:23Z) - Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
実演として、$I(Z; M)$の教師付きおよび自己教師型実装を提案し、対応する最適化アルゴリズムがRLベンチマークの幅広いスペクトルにわたって顕著な一般化を示すことを実証的に示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - Hierarchical Continual Reinforcement Learning via Large Language Model [15.837883929274758]
Hi-Coreはハイレベルな知識の伝達を容易にするように設計されている。
大規模言語モデル(LLM)による高レベルポリシー定式化
Hi-Coreは様々なCRLタスクの処理の有効性を示しており、一般的なベースラインを上回っている。
論文 参考訳(メタデータ) (2024-01-25T03:06:51Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Compositional Reinforcement Learning from Logical Specifications [21.193231846438895]
最近のアプローチでは、与えられた仕様から報酬関数を自動的に生成し、適切な強化学習アルゴリズムを用いてポリシーを学習する。
我々は、高レベルの計画と強化学習をインターリーブする、DiRLと呼ばれる構成学習手法を開発した。
提案手法では,各エッジ(サブタスク)のニューラルネットワークポリシをDijkstraスタイルの計画アルゴリズムで学習し,グラフの高レベルプランを計算する。
論文 参考訳(メタデータ) (2021-06-25T22:54:28Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z) - Certified Reinforcement Learning with Logic Guidance [78.2286146954051]
線形時間論理(LTL)を用いて未知の連続状態/動作マルコフ決定過程(MDP)のゴールを定式化できるモデルフリーなRLアルゴリズムを提案する。
このアルゴリズムは、トレースが仕様を最大確率で満たす制御ポリシーを合成することが保証される。
論文 参考訳(メタデータ) (2019-02-02T20:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。