論文の概要: System-Agnostic Meta-Learning for MDP-based Dynamic Scheduling via
Descriptive Policy
- arxiv url: http://arxiv.org/abs/2201.07051v1
- Date: Tue, 18 Jan 2022 15:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 14:42:17.569521
- Title: System-Agnostic Meta-Learning for MDP-based Dynamic Scheduling via
Descriptive Policy
- Title(参考訳): 記述ポリシーを用いたmdpに基づく動的スケジューリングのためのシステム非依存メタラーニング
- Authors: Hyun-Suk Lee
- Abstract要約: 動的スケジューリングは、キューから無線ネットワークへのアプリケーションにおいて重要な問題である。
本稿では,MDPに基づく動的スケジューリングのための新しいポリシー構造を提案する。
同一のタスクに対して、目に見えないシステム特性に適応するシステムに依存しない能力を持つ。
- 参考スコア(独自算出の注目度): 7.487718119544157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic scheduling is an important problem in applications from queuing to
wireless networks. It addresses how to choose an item among multiple scheduling
items in each timestep to achieve a long-term goal. Conventional approaches for
dynamic scheduling find the optimal policy for a given specific system so that
the policy from these approaches is usable only for the corresponding system
characteristics. Hence, it is hard to use such approaches for a practical
system in which system characteristics dynamically change. This paper proposes
a novel policy structure for MDP-based dynamic scheduling, a descriptive
policy, which has a system-agnostic capability to adapt to unseen system
characteristics for an identical task (dynamic scheduling). To this end, the
descriptive policy learns a system-agnostic scheduling principle--in a
nutshell, "which condition of items should have a higher priority in
scheduling". The scheduling principle can be applied to any system so that the
descriptive policy learned in one system can be used for another system.
Experiments with simple explanatory and realistic application scenarios
demonstrate that it enables system-agnostic meta-learning with very little
performance degradation compared with the system-specific conventional
policies.
- Abstract(参考訳): 動的スケジューリングは、キューから無線ネットワークへのアプリケーションにおいて重要な問題である。
長期的目標を達成するために、各タイムステップで複数のスケジューリング項目の中からアイテムを選択する方法に対処する。
動的スケジューリングの従来のアプローチは、与えられた特定のシステムに対して最適なポリシーを見つけるので、これらのアプローチからのポリシーは対応するシステム特性に対してのみ使用可能である。
したがって、システム特性が動的に変化する実用的なシステムには、そのようなアプローチを使うのは難しい。
本稿では,同一タスク(動的スケジューリング)のシステム特性に適応するシステム非依存な機能を有する,mdpベースの動的スケジューリングのための新しいポリシー構造を提案する。
この目的のために、記述ポリシーは「どの項目の条件がスケジューリングの優先度が高いか」という、システムに依存しないスケジューリング原則を学ぶ。
スケジューリング原則は任意のシステムに適用でき、あるシステムで学んだ記述ポリシーを他のシステムに使用することができる。
単純な説明と現実的なアプリケーションシナリオによる実験により、システム固有の従来のポリシーと比較して、パフォーマンスの低下が極めて少ない、システム非依存なメタラーニングが可能になる。
関連論文リスト
- Learning Control Policies for Variable Objectives from Offline Data [2.7174376960271154]
可変客観ポリシー(VOP)と呼ばれるモデルに基づくポリシー探索手法の概念拡張を導入する。
ポリシーの入力として渡された目的を変更することで、ユーザはその動作を調整する自由を得たり、実行時に最適化目標を再バランスさせたりすることができる。
論文 参考訳(メタデータ) (2023-08-11T13:33:59Z) - Non-Stationary Policy Learning for Multi-Timescale Multi-Agent
Reinforcement Learning [9.808555135836022]
マルチタイムスケールのマルチエージェント強化学習では、エージェントは異なる時間スケールで相互作用する。
マルチスケールMARLのための非定常ポリシーを学習するための簡単なフレームワークを提案する。
グリッドワールドとエネルギー管理環境の構築において,マルチタイム・ポリシーを効果的に学習するフレームワークの能力を検証する。
論文 参考訳(メタデータ) (2023-07-17T19:25:46Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - End-to-End Stable Imitation Learning via Autonomous Neural Dynamic
Policies [2.7941001040182765]
State-of-the-the-art Sensorimotor Learningアルゴリズムは、不安定な振る舞いをしばしば生成できるポリシーを提供する。
従来のロボット学習は、安定性と安全性を解析できる動的システムベースのポリシーに依存している。
本研究では,汎用ニューラルネットワークポリシと動的システムベースのポリシのギャップを埋める。
論文 参考訳(メタデータ) (2023-05-22T10:10:23Z) - Quantification before Selection: Active Dynamics Preference for Robust
Reinforcement Learning [5.720802072821204]
本稿では,サンプルシステムパラメータの情報量と密度を定量化するActive Dynamics Preference(ADP)を提案する。
トレーニング環境とテスト環境の異なる4つのロボット移動タスクにおいて,我々のアプローチを検証した。
論文 参考訳(メタデータ) (2022-09-23T13:59:55Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Active Learning for Nonlinear System Identification with Guarantees [102.43355665393067]
状態遷移が既知の状態-作用対の特徴埋め込みに線形に依存する非線形力学系のクラスについて検討する。
そこで本稿では, トラジェクティブ・プランニング, トラジェクティブ・トラッキング, システムの再推定という3つのステップを繰り返すことで, この問題を解決するためのアクティブ・ラーニング・アプローチを提案する。
本手法は, 非線形力学系を標準線形回帰の統計速度と同様, パラメトリック速度で推定する。
論文 参考訳(メタデータ) (2020-06-18T04:54:11Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。