論文の概要: Guiding Online Reinforcement Learning with Action-Free Offline
Pretraining
- arxiv url: http://arxiv.org/abs/2301.12876v2
- Date: Wed, 22 Mar 2023 09:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 00:22:52.409369
- Title: Guiding Online Reinforcement Learning with Action-Free Offline
Pretraining
- Title(参考訳): アクションフリーオフライン事前トレーニングによるオンライン強化学習の指導
- Authors: Deyao Zhu, Yuhui Wang, J\"urgen Schmidhuber, Mohamed Elhoseiny
- Abstract要約: Action-Free Guide(AF-Guide)は、アクションフリーオフラインデータセットから知識を抽出することでオンライントレーニングをガイドする手法である。
AF-Guideは、アクションフリーのオフラインデータセットからの知識のおかげで、オンライントレーニングにおけるサンプル効率とパフォーマンスを改善することができる。
- 参考スコア(独自算出の注目度): 28.123064386225536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline RL methods have been shown to reduce the need for environment
interaction by training agents using offline collected episodes. However, these
methods typically require action information to be logged during data
collection, which can be difficult or even impossible in some practical cases.
In this paper, we investigate the potential of using action-free offline
datasets to improve online reinforcement learning, name this problem
Reinforcement Learning with Action-Free Offline Pretraining (AFP-RL). We
introduce Action-Free Guide (AF-Guide), a method that guides online training by
extracting knowledge from action-free offline datasets. AF-Guide consists of an
Action-Free Decision Transformer (AFDT) implementing a variant of Upside-Down
Reinforcement Learning. It learns to plan the next states from the offline
dataset, and a Guided Soft Actor-Critic (Guided SAC) that learns online with
guidance from AFDT. Experimental results show that AF-Guide can improve sample
efficiency and performance in online training thanks to the knowledge from the
action-free offline dataset. Code is available at
https://github.com/Vision-CAIR/AF-Guide.
- Abstract(参考訳): オフラインRL法は、オフライン収集エピソードを用いたトレーニングエージェントによる環境相互作用の必要性を低減することが示されている。
しかし、これらの手法は一般的に、データ収集中にログされるアクション情報を必要とする。
本稿では,アクションフリーオフラインプリトレーニング(afp-rl)を用いて,オンライン強化学習を改善するために,アクションフリーオフラインデータセットを使用する可能性について検討する。
我々は、アクションフリーオフラインデータセットから知識を抽出し、オンライントレーニングをガイドするAction-Free Guide(AF-Guide)を紹介する。
AF-Guide は Upside-Down Reinforcement Learning の変種を実装した Action-Free Decision Transformer (AFDT) で構成されている。
オフラインデータセットから次の状態を計画することや、afdtのガイダンスでオンライン学習を行う、soft actor-critic (guided sac)のガイドから学ぶ。
AF-Guideは、アクションフリーオフラインデータセットからの知識により、オンライントレーニングにおけるサンプル効率とパフォーマンスを向上させることができることを示す。
コードはhttps://github.com/Vision-CAIR/AF-Guide.comから入手できる。
関連論文リスト
- ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である
本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。
ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。