論文の概要: The Generalization Gap in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.05742v1
- Date: Sun, 10 Dec 2023 03:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:15:41.414337
- Title: The Generalization Gap in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習における一般化ギャップ
- Authors: Ishita Mediratta, Qingfei You, Minqi Jiang and Roberta Raileanu
- Abstract要約: オフライン学習アルゴリズムは、オンライン学習アルゴリズムよりも、新しい環境でパフォーマンスが悪くなります。
行動クローニングは強力なベースラインであり、最先端のオフラインRLおよびシーケンスモデリングアプローチより優れている。
- 参考スコア(独自算出の注目度): 29.040242333132905
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent progress in offline learning, these methods are still trained
and tested on the same environment. In this paper, we compare the
generalization abilities of widely used online and offline learning methods
such as online reinforcement learning (RL), offline RL, sequence modeling, and
behavioral cloning. Our experiments show that offline learning algorithms
perform worse on new environments than online learning ones. We also introduce
the first benchmark for evaluating generalization in offline learning,
collecting datasets of varying sizes and skill-levels from Procgen (2D video
games) and WebShop (e-commerce websites). The datasets contain trajectories for
a limited number of game levels or natural language instructions and at test
time, the agent has to generalize to new levels or instructions. Our
experiments reveal that existing offline learning algorithms struggle to match
the performance of online RL on both train and test environments. Behavioral
cloning is a strong baseline, outperforming state-of-the-art offline RL and
sequence modeling approaches when trained on data from multiple environments
and tested on new ones. Finally, we find that increasing the diversity of the
data, rather than its size, improves performance on new environments for all
offline learning algorithms. Our study demonstrates the limited generalization
of current offline learning algorithms highlighting the need for more research
in this area.
- Abstract(参考訳): オフライン学習の最近の進歩にもかかわらず、これらの手法はいまだに同じ環境で訓練され、テストされている。
本稿では、オンライン強化学習(RL)、オフラインRL、シーケンスモデリング、行動クローニングなど、広く使われているオンラインおよびオフライン学習手法の一般化能力を比較する。
実験の結果,オフライン学習アルゴリズムはオンライン学習よりも新しい環境ではパフォーマンスが良いことがわかった。
また,オフライン学習における一般化を評価する最初のベンチマークとして,procgen (2dビデオゲーム) や webshop (eコマースwebサイト) から,さまざまなサイズとスキルレベルのデータセットを収集した。
データセットには限られた数のゲームレベルや自然言語命令の軌跡が含まれており、テスト時にはエージェントは新しいレベルや命令に一般化する必要がある。
実験の結果,既存のオフライン学習アルゴリズムは,トレーニング環境とテスト環境の両方においてオンラインRLの性能に適合することが判明した。
ビヘイビアクローンは強力なベースラインであり、複数の環境のデータに基づいてトレーニングし、新しい環境でテストした場合、最先端のオフラインRLとシーケンスモデリングアプローチより優れている。
最後に、データのサイズよりも多様性が増すことで、すべてのオフライン学習アルゴリズムの新たな環境の性能が向上することがわかった。
本研究は,現在のオフライン学習アルゴリズムの限定的一般化を実証し,この分野におけるさらなる研究の必要性を浮き彫りにした。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies [6.303272140868826]
強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
論文 参考訳(メタデータ) (2022-12-15T20:36:10Z) - A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。
高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文 参考訳(メタデータ) (2022-03-02T20:05:11Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - A Workflow for Offline Model-Free Robotic Reinforcement Learning [117.07743713715291]
オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することによって、学習制御ポリシを可能にする。
本研究では,教師付き学習問題に対して,比較的よく理解されたオフラインRLと類似した実践的ワークフローを開発する。
オンラインチューニングを伴わない効果的なポリシー作成におけるこのワークフローの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-22T16:03:29Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。