論文の概要: Guiding Online Reinforcement Learning with Action-Free Offline
Pretraining
- arxiv url: http://arxiv.org/abs/2301.12876v2
- Date: Wed, 22 Mar 2023 09:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 00:22:52.409369
- Title: Guiding Online Reinforcement Learning with Action-Free Offline
Pretraining
- Title(参考訳): アクションフリーオフライン事前トレーニングによるオンライン強化学習の指導
- Authors: Deyao Zhu, Yuhui Wang, J\"urgen Schmidhuber, Mohamed Elhoseiny
- Abstract要約: Action-Free Guide(AF-Guide)は、アクションフリーオフラインデータセットから知識を抽出することでオンライントレーニングをガイドする手法である。
AF-Guideは、アクションフリーのオフラインデータセットからの知識のおかげで、オンライントレーニングにおけるサンプル効率とパフォーマンスを改善することができる。
- 参考スコア(独自算出の注目度): 28.123064386225536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline RL methods have been shown to reduce the need for environment
interaction by training agents using offline collected episodes. However, these
methods typically require action information to be logged during data
collection, which can be difficult or even impossible in some practical cases.
In this paper, we investigate the potential of using action-free offline
datasets to improve online reinforcement learning, name this problem
Reinforcement Learning with Action-Free Offline Pretraining (AFP-RL). We
introduce Action-Free Guide (AF-Guide), a method that guides online training by
extracting knowledge from action-free offline datasets. AF-Guide consists of an
Action-Free Decision Transformer (AFDT) implementing a variant of Upside-Down
Reinforcement Learning. It learns to plan the next states from the offline
dataset, and a Guided Soft Actor-Critic (Guided SAC) that learns online with
guidance from AFDT. Experimental results show that AF-Guide can improve sample
efficiency and performance in online training thanks to the knowledge from the
action-free offline dataset. Code is available at
https://github.com/Vision-CAIR/AF-Guide.
- Abstract(参考訳): オフラインRL法は、オフライン収集エピソードを用いたトレーニングエージェントによる環境相互作用の必要性を低減することが示されている。
しかし、これらの手法は一般的に、データ収集中にログされるアクション情報を必要とする。
本稿では,アクションフリーオフラインプリトレーニング(afp-rl)を用いて,オンライン強化学習を改善するために,アクションフリーオフラインデータセットを使用する可能性について検討する。
我々は、アクションフリーオフラインデータセットから知識を抽出し、オンライントレーニングをガイドするAction-Free Guide(AF-Guide)を紹介する。
AF-Guide は Upside-Down Reinforcement Learning の変種を実装した Action-Free Decision Transformer (AFDT) で構成されている。
オフラインデータセットから次の状態を計画することや、afdtのガイダンスでオンライン学習を行う、soft actor-critic (guided sac)のガイドから学ぶ。
AF-Guideは、アクションフリーオフラインデータセットからの知識により、オンライントレーニングにおけるサンプル効率とパフォーマンスを向上させることができることを示す。
コードはhttps://github.com/Vision-CAIR/AF-Guide.comから入手できる。
関連論文リスト
- Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - Vid2Act: Activate Offline Videos for Visual RL [62.43468793011923]
モデルベースのRL手法であるVid2Actを提案する。
具体的には、ドメイン選択的な知識蒸留損失を用いて、時間変化のあるタスク類似点のセットを生成するよう、世界モデルを訓練する。
本稿では,Meta-World と DeepMind Control Suite において,アクションフリーな視覚的RL事前学習法に対する Vid2Act の利点を示す。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。