論文の概要: RvS: What is Essential for Offline RL via Supervised Learning?
- arxiv url: http://arxiv.org/abs/2112.10751v1
- Date: Mon, 20 Dec 2021 18:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 15:16:40.372261
- Title: RvS: What is Essential for Offline RL via Supervised Learning?
- Title(参考訳): RvS: 監視学習によるオフラインRLには何が必要か?
- Authors: Scott Emmons, Benjamin Eysenbach, Ilya Kostrikov, Sergey Levine
- Abstract要約: 近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
- 参考スコア(独自算出の注目度): 77.91045677562802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that supervised learning alone, without temporal
difference (TD) learning, can be remarkably effective for offline RL. When does
this hold true, and which algorithmic components are necessary? Through
extensive experiments, we boil supervised learning for offline RL down to its
essential elements. In every environment suite we consider, simply maximizing
likelihood with a two-layer feedforward MLP is competitive with
state-of-the-art results of substantially more complex methods based on TD
learning or sequence modeling with Transformers. Carefully choosing model
capacity (e.g., via regularization or architecture) and choosing which
information to condition on (e.g., goals or rewards) are critical for
performance. These insights serve as a field guide for practitioners doing
Reinforcement Learning via Supervised Learning (which we coin "RvS learning").
They also probe the limits of existing RvS methods, which are comparatively
weak on random data, and suggest a number of open problems.
- Abstract(参考訳): 近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
いつこれが真実で、どのアルゴリズムコンポーネントが必要なのか?
広範囲な実験を通じて、オフラインRLのための教師あり学習を、その重要な要素へと導いていく。
いずれの環境においても,2層フィードフォワード MLP による可能性の最大化は,TD 学習や Transformer を用いたシーケンスモデリングに基づく,より複雑な手法による最先端の結果と競合する。
モデルのキャパシティ(例えば、正規化やアーキテクチャ)を慎重に選択し、どの情報(例えば、目標や報酬)がパフォーマンスにとって重要であるかを選択する。
これらの洞察は、強化学習を行う実践者("RvS Learning"とよばれる)のためのフィールドガイドとして役立ちます。
彼らはまた、ランダムデータに比較的弱い既存のRvS法の限界を探索し、多くの未解決問題を提案する。
関連論文リスト
- Exploration is Harder than Prediction: Cryptographically Separating Reinforcement Learning from Supervised Learning [34.791182995710024]
本稿では,強化学習と教師あり学習の分離を初めて示す。
また,ブロックMDPにおける報酬指向RLに対する計算効率のよいアルゴリズムは存在しないことを示す。
論文 参考訳(メタデータ) (2024-04-04T19:35:41Z) - The Generalization Gap in Offline Reinforcement Learning [26.583205544712403]
オフライン学習アルゴリズムは、オンライン学習アルゴリズムよりも、新しい環境でパフォーマンスが悪くなります。
行動クローニングは強力なベースラインであり、最先端のオフラインRLおよびシーケンスモデリングアプローチより優れている。
論文 参考訳(メタデータ) (2023-12-10T03:40:52Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。