論文の概要: What is Essential for Unseen Goal Generalization of Offline
Goal-conditioned RL?
- arxiv url: http://arxiv.org/abs/2305.18882v2
- Date: Fri, 2 Jun 2023 05:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 18:49:57.756226
- Title: What is Essential for Unseen Goal Generalization of Offline
Goal-conditioned RL?
- Title(参考訳): オフライン目標条件rlの無意識目標一般化に不可欠なものは何か?
- Authors: Rui Yang, Yong Lin, Xiaoteng Ma, Hao Hu, Chongjie Zhang, Tong Zhang
- Abstract要約: オフラインのゴール条件付きRL(GCRL)は、完全にオフラインのデータセットから汎用エージェントをトレーニングする方法を提供する。
我々は、新しいオフラインGCRL法、Generalizable Offline goAl-condiTioned RL(GOAT)を提案する。
9つの独立した同一分散(IID)タスクと17のOODタスクを含む新しいベンチマークでは、GOATは現在の最先端メソッドを大きなマージンで上回っている。
- 参考スコア(独自算出の注目度): 31.202506227437937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline goal-conditioned RL (GCRL) offers a way to train general-purpose
agents from fully offline datasets. In addition to being conservative within
the dataset, the generalization ability to achieve unseen goals is another
fundamental challenge for offline GCRL. However, to the best of our knowledge,
this problem has not been well studied yet. In this paper, we study
out-of-distribution (OOD) generalization of offline GCRL both theoretically and
empirically to identify factors that are important. In a number of experiments,
we observe that weighted imitation learning enjoys better generalization than
pessimism-based offline RL method. Based on this insight, we derive a theory
for OOD generalization, which characterizes several important design choices.
We then propose a new offline GCRL method, Generalizable Offline
goAl-condiTioned RL (GOAT), by combining the findings from our theoretical and
empirical studies. On a new benchmark containing 9 independent identically
distributed (IID) tasks and 17 OOD tasks, GOAT outperforms current
state-of-the-art methods by a large margin.
- Abstract(参考訳): オフラインの目標条件付きrl(gcrl)は、完全なオフラインデータセットから汎用エージェントをトレーニングする方法を提供する。
データセット内で保守的であることに加えて、目に見えない目標を達成するための一般化能力は、オフラインGCRLのもう一つの根本的な課題である。
しかし、我々の知る限りでは、この問題はまだよく研究されていない。
本稿では,オフラインGCRLのアウト・オブ・ディストリビューション(OOD)一般化を理論的および実験的に検討し,重要な要因を同定する。
多くの実験において,重み付き模倣学習はペシミズムに基づくオフラインrl法よりも優れた一般化を享受している。
この知見に基づいて、我々はOOD一般化の理論を導出し、いくつかの重要な設計選択を特徴付ける。
そこで我々は,実験および理論的研究から得られた知見を組み合わせて,新しいオフラインGCRL法であるGeneralizable Offline goAl-condiTioned RL (GOAT)を提案する。
9つの独立した同一分散(IID)タスクと17のOODタスクを含む新しいベンチマークでは、GOATは現在の最先端メソッドを大きなマージンで上回っている。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Open RL Benchmark: Comprehensive Tracked Experiments for Reinforcement
Learning [41.971465819626005]
我々は、完全に追跡されたRL実験のセットであるOpen RL Benchmarkを紹介する。
Open RL Benchmarkはコミュニティ主導で、誰でもダウンロード、使用、データへのコントリビューションが可能です。
それぞれの実験が正確に再現可能であることを保証するため、特別に注意が払われる。
論文 参考訳(メタデータ) (2024-02-05T14:32:00Z) - SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。