論文の概要: Launchpad: Learning to Schedule Using Offline and Online RL Methods
- arxiv url: http://arxiv.org/abs/2212.00639v2
- Date: Fri, 2 Dec 2022 14:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 13:25:46.002651
- Title: Launchpad: Learning to Schedule Using Offline and Online RL Methods
- Title(参考訳): launchpad: オフラインおよびオンラインrlメソッドによるスケジュール学習
- Authors: Vanamala Venkataswamy, Jake Grigsby, Andrew Grimshaw, Yanjun Qi
- Abstract要約: 既存のRLスケジューラは、過去のデータから学び、カスタムポリシーを改善することの重要性を見落としている。
オフライン強化学習は、オンライン環境の相互作用のない事前記録されたデータセットからポリシー最適化の見通しを示す。
これらの手法は、データ収集と安全性のコスト、特にRLの現実的な応用に関連する問題に対処する。
- 参考スコア(独自算出の注目度): 9.488752723308954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning algorithms have succeeded in several challenging
domains. Classic Online RL job schedulers can learn efficient scheduling
strategies but often takes thousands of timesteps to explore the environment
and adapt from a randomly initialized DNN policy. Existing RL schedulers
overlook the importance of learning from historical data and improving upon
custom heuristic policies. Offline reinforcement learning presents the prospect
of policy optimization from pre-recorded datasets without online environment
interaction. Following the recent success of data-driven learning, we explore
two RL methods: 1) Behaviour Cloning and 2) Offline RL, which aim to learn
policies from logged data without interacting with the environment. These
methods address the challenges concerning the cost of data collection and
safety, particularly pertinent to real-world applications of RL. Although the
data-driven RL methods generate good results, we show that the performance is
highly dependent on the quality of the historical datasets. Finally, we
demonstrate that by effectively incorporating prior expert demonstrations to
pre-train the agent, we short-circuit the random exploration phase to learn a
reasonable policy with online training. We utilize Offline RL as a launchpad to
learn effective scheduling policies from prior experience collected using
Oracle or heuristic policies. Such a framework is effective for pre-training
from historical datasets and well suited to continuous improvement with online
data collection.
- Abstract(参考訳): 深層強化学習アルゴリズムはいくつかの課題領域で成功している。
古典的なオンラインrlジョブスケジューラは効率的なスケジューリング戦略を学習するが、環境を探索しランダムに初期化されたdnnポリシーから適応するには数千の時間を要する。
既存のRLスケジューラは、歴史的データから学び、カスタムヒューリスティックポリシーを改善することの重要性を見落としている。
オフライン強化学習は、オンライン環境相互作用のない事前記録データセットからポリシー最適化の見通しを示す。
データ駆動学習の成功に続いて、我々は2つのRL手法を探求する。
1) 行動のクローニングと
2) 環境と対話することなくログデータからポリシーを学習することを目的としたオフラインRL。
これらの手法は、データ収集と安全性のコスト、特に実世界のRL応用に関連する問題に対処する。
データ駆動RL法は良い結果をもたらすが,その性能は過去のデータセットの品質に大きく依存していることを示す。
最後に、エージェントを事前訓練するために事前専門家によるデモンストレーションを効果的に取り入れることで、ランダム探索フェーズを短縮し、オンライントレーニングで合理的なポリシーを学ぶことを実証する。
私たちはOffline RLをローンチパッドとして利用し、Oracleやヒューリスティックなポリシーを使って収集された以前の経験から効果的なスケジューリングポリシーを学びます。
このようなフレームワークは、履歴データセットからの事前トレーニングに有効であり、オンラインデータ収集による継続的改善に適している。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Using Offline Data to Speed-up Reinforcement Learning in Procedurally
Generated Environments [11.272582555795989]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。
1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文 参考訳(メタデータ) (2023-04-18T16:23:15Z) - Adaptive Policy Learning for Offline-to-Online Reinforcement Learning [27.80266207283246]
我々は、エージェントがオフラインデータセットから最初に学習され、オンラインにトレーニングされたオフライン-オンライン設定について検討する。
オフラインおよびオンラインデータを効果的に活用するためのAdaptive Policy Learningというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T08:13:21Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。