論文の概要: Efficient Online Reinforcement Learning with Offline Data
- arxiv url: http://arxiv.org/abs/2302.02948v4
- Date: Wed, 31 May 2023 10:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 03:22:17.226896
- Title: Efficient Online Reinforcement Learning with Offline Data
- Title(参考訳): オフラインデータを用いたオンライン強化学習の効率化
- Authors: Philip J. Ball, Laura Smith, Ilya Kostrikov, Sergey Levine
- Abstract要約: オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
- 参考スコア(独自算出の注目度): 78.92501185886569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sample efficiency and exploration remain major challenges in online
reinforcement learning (RL). A powerful approach that can be applied to address
these issues is the inclusion of offline data, such as prior trajectories from
a human expert or a sub-optimal exploration policy. Previous methods have
relied on extensive modifications and additional complexity to ensure the
effective use of this data. Instead, we ask: can we simply apply existing
off-policy methods to leverage offline data when learning online? In this work,
we demonstrate that the answer is yes; however, a set of minimal but important
changes to existing off-policy RL algorithms are required to achieve reliable
performance. We extensively ablate these design choices, demonstrating the key
factors that most affect performance, and arrive at a set of recommendations
that practitioners can readily apply, whether their data comprise a small
number of expert demonstrations or large volumes of sub-optimal trajectories.
We see that correct application of these simple recommendations can provide a
$\mathbf{2.5\times}$ improvement over existing approaches across a diverse set
of competitive benchmarks, with no additional computational overhead. We have
released our code at https://github.com/ikostrikov/rlpd.
- Abstract(参考訳): サンプル効率と探索は、オンライン強化学習(RL)の主要な課題である。
これらの問題に対処できる強力なアプローチは、人間の専門家による事前の軌跡や準最適探査ポリシーのようなオフラインデータを含めることである。
従来の手法は、このデータの有効利用を保証するために、広範囲な修正と追加の複雑さに依存してきた。
オンライン学習時にオフラインデータを活用するために、既存のオフポリシーメソッドを単に適用できるのでしょうか?
本稿では,既存のオフポリシーrlアルゴリズムに対する最小だが重要な変更点のセットが,信頼性の高い性能を実現するために必要であることを示す。
私たちは、これらの設計選択を広範囲に否定し、パフォーマンスに最も影響を及ぼす重要な要素を実証し、そのデータが少数の専門家によるデモンストレーションか、あるいは大量の最適サブトラジェクタであるかに関わらず、実践者が容易に適用できる一連の推奨事項に到達します。
これらの単純な推奨の正しい適用は、計算オーバーヘッドを増すことなく、さまざまな競合ベンチマークで既存のアプローチに対して$\mathbf{2.5\times}$の改善を提供することができる。
私たちはコードをhttps://github.com/ikostrikov/rlpdでリリースした。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Offline Reinforcement Learning for Learning to Dispatch for Job Shop Scheduling [0.9831489366502301]
ジョブショップスケジューリング問題(JSSP)の新しいアプローチであるオフライン強化学習(Offline-LD)について紹介する。
Offline-LDは2つのCQLベースのQ-ラーニング手法をマスク可能なアクション空間に適用し、離散SACのための新しいエントロピーボーナス修正を導入し、前処理による報酬正規化を活用する。
実験の結果,Offline-LDは生成されたインスタンスとベンチマークインスタンスの両方でオンラインRLを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-16T15:18:10Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Benchmarks and Algorithms for Offline Preference-Based Reward Learning [41.676208473752425]
本稿では、オフラインデータセットを用いて、プールベースのアクティブラーニングによる嗜好クエリを作成するアプローチを提案する。
提案手法では,報酬学習や政策最適化のステップに対して,実際の物理ロールアウトや正確なシミュレータを必要としない。
論文 参考訳(メタデータ) (2023-01-03T23:52:16Z) - Data-Efficient Pipeline for Offline Reinforcement Learning with Limited
Data [28.846826115837825]
オフライン強化学習は、過去のデータを活用することで、将来のパフォーマンスを改善するために使用できる。
最適なポリシを自動トレーニングし、比較し、選択し、デプロイするためのタスクとメソッドに依存しないパイプラインを導入します。
データセットが小さい場合には、大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2022-10-16T21:24:53Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。