論文の概要: Using Offline Data to Speed-up Reinforcement Learning in Procedurally
Generated Environments
- arxiv url: http://arxiv.org/abs/2304.09825v1
- Date: Tue, 18 Apr 2023 16:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 13:27:11.810724
- Title: Using Offline Data to Speed-up Reinforcement Learning in Procedurally
Generated Environments
- Title(参考訳): オフラインデータを用いた手続き生成環境における強化学習の高速化
- Authors: Alain Andres, Lukas Sch\"afer, Esther Villar-Rodriguez, Stefano
V.Albrecht, Javier Del Ser
- Abstract要約: 本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。
1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
- 参考スコア(独自算出の注目度): 11.272582555795989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key challenges of Reinforcement Learning (RL) is the ability of
agents to generalise their learned policy to unseen settings. Moreover,
training RL agents requires large numbers of interactions with the environment.
Motivated by the recent success of Offline RL and Imitation Learning (IL), we
conduct a study to investigate whether agents can leverage offline data in the
form of trajectories to improve the sample-efficiency in procedurally generated
environments. We consider two settings of using IL from offline data for RL:
(1) pre-training a policy before online RL training and (2) concurrently
training a policy with online RL and IL from offline data. We analyse the
impact of the quality (optimality of trajectories) and diversity (number of
trajectories and covered level) of available offline trajectories on the
effectiveness of both approaches. Across four well-known sparse reward tasks in
the MiniGrid environment, we find that using IL for pre-training and
concurrently during online RL training both consistently improve the
sample-efficiency while converging to optimal policies. Furthermore, we show
that pre-training a policy from as few as two trajectories can make the
difference between learning an optimal policy at the end of online training and
not learning at all. Our findings motivate the widespread adoption of IL for
pre-training and concurrent IL in procedurally generated environments whenever
offline trajectories are available or can be generated.
- Abstract(参考訳): 強化学習(rl)の重要な課題の1つは、エージェントが学習したポリシーを認識できない設定に一般化する能力である。
さらに、RLエージェントの訓練には環境との多数の相互作用が必要である。
近年のオフラインrlと模倣学習 (il) の成功に動機づけられ, エージェントがトラジェクタの形でオフラインデータを活用し, 手続き的生成環境におけるサンプル効率を向上させることができるか検討した。
我々は,オフラインデータからのil使用について,(1)オンラインrlトレーニング前にポリシを事前トレーニングすること,(2)オフラインデータからオンラインrlとilでポリシを同時トレーニングすること,の2つの設定を検討する。
本研究では,オフライントラジェクタの品質(トラジェクタの最適性)と多様性(トラジェクタ数とカバーレベル)が両手法の有効性に与える影響を分析した。
ミニグリッド環境における4つのよく知られたスパース報酬タスクの中で,オンラインRLトレーニングにおいて,ILを事前学習と同時学習に使用することにより,最適なポリシに収束しながら,サンプル効率を一貫して向上することがわかった。
さらに,2つの軌道から政策を事前学習することで,オンライン学習の終了時に最適方針を学習することと,学習を全く行わないことの相違が示される。
本研究は,オフライントラジェクタが利用可能あるいは生成可能であれば,手続き的に生成した環境において,事前学習と同時学習のためのilを広く採用する動機となった。
関連論文リスト
- Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。
U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。
U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-08-27T05:23:45Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs
and Practical Solutions [30.050083797177706]
オフライン強化学習(RL)では、環境とのインタラクションなしに、オフラインデータセットから有能なエージェントをトレーニングすることができる。
このようなオフラインモデルのオンライン微調整により、パフォーマンスがさらに向上する。
より高速な改善のために、標準的なオンラインオフラインアルゴリズムを使用することが可能であることを示す。
論文 参考訳(メタデータ) (2023-03-30T14:08:31Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Launchpad: Learning to Schedule Using Offline and Online RL Methods [9.488752723308954]
既存のRLスケジューラは、過去のデータから学び、カスタムポリシーを改善することの重要性を見落としている。
オフライン強化学習は、オンライン環境の相互作用のない事前記録されたデータセットからポリシー最適化の見通しを示す。
これらの手法は、データ収集と安全性のコスト、特にRLの現実的な応用に関連する問題に対処する。
論文 参考訳(メタデータ) (2022-12-01T16:40:11Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。