論文の概要: Improving Zero-shot Generalization in Offline Reinforcement Learning
using Generalized Similarity Functions
- arxiv url: http://arxiv.org/abs/2111.14629v1
- Date: Mon, 29 Nov 2021 15:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 21:46:52.337341
- Title: Improving Zero-shot Generalization in Offline Reinforcement Learning
using Generalized Similarity Functions
- Title(参考訳): 一般化類似関数を用いたオフライン強化学習におけるゼロショット一般化の改善
- Authors: Bogdan Mazoure, Ilya Kostrikov, Ofir Nachum, Jonathan Tompson
- Abstract要約: 強化学習(Reinforcement Learning, RL)エージェントは、複雑な逐次意思決定タスクの解決に広く用いられているが、訓練中に見えないシナリオに一般化することが困難である。
RLにおける一般化のためのオンラインアルゴリズムの性能は、観測間の類似性の評価が不十分なため、オフライン環境では妨げられることを示す。
本稿では, 一般化類似度関数(GSF)と呼ばれる新しい理論的動機付けフレームワークを提案する。このフレームワークは, 競合学習を用いてオフラインのRLエージェントを訓練し, 期待される将来の行動の類似性に基づいて観測を集約する。
- 参考スコア(独自算出の注目度): 34.843526573355746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) agents are widely used for solving complex
sequential decision making tasks, but still exhibit difficulty in generalizing
to scenarios not seen during training. While prior online approaches
demonstrated that using additional signals beyond the reward function can lead
to better generalization capabilities in RL agents, i.e. using self-supervised
learning (SSL), they struggle in the offline RL setting, i.e. learning from a
static dataset. We show that performance of online algorithms for
generalization in RL can be hindered in the offline setting due to poor
estimation of similarity between observations. We propose a new
theoretically-motivated framework called Generalized Similarity Functions
(GSF), which uses contrastive learning to train an offline RL agent to
aggregate observations based on the similarity of their expected future
behavior, where we quantify this similarity using \emph{generalized value
functions}. We show that GSF is general enough to recover existing SSL
objectives while also improving zero-shot generalization performance on a
complex offline RL benchmark, offline Procgen.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) エージェントは、複雑な逐次意思決定タスクの解決に広く用いられているが、訓練中に見えないシナリオを一般化することは困難である。
以前のオンラインアプローチでは、報酬関数以外の追加信号を使用することで、自己教師付き学習(SSL)を使用するRLエージェントの一般化能力が向上することを示したが、オフラインのRL設定、すなわち静的データセットからの学習では苦労した。
rlにおける一般化のためのオンラインアルゴリズムの性能は、観測間の類似性の推定が不十分なためオフライン環境では妨げられる。
本研究では, コントラスト学習を用いてオフラインのrlエージェントを訓練し, 期待される挙動の類似性に基づいて観測結果を集約し, この類似性を \emph{generalized value function} を用いて定量化する, 一般化類似度関数(gsf)と呼ばれる新しい理論的動機付けフレームワークを提案する。
また,複雑なオフラインRLベンチマークであるオフラインProcgen上でのゼロショットの一般化性能も向上した。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - IMEX-Reg: Implicit-Explicit Regularization in the Function Space for Continual Learning [17.236861687708096]
連続学習(CL)は、これまで獲得した知識の破滅的な忘れが原因で、ディープニューラルネットワークの長年にわたる課題の1つである。
低バッファ状態下でのCLにおける経験リハーサルの一般化性能を改善するために,強い帰納バイアスを用いて人間がどのように学習するかに着想を得たIMEX-Regを提案する。
論文 参考訳(メタデータ) (2024-04-28T12:25:09Z) - Closing the Gap between TD Learning and Supervised Learning -- A
Generalisation Point of View [51.30152184507165]
いくつかの強化学習(RL)アルゴリズムは、トレーニング中に見たことのないタスクを解決するために、経験の断片を縫い合わせることができる。
このoft-sought特性は、動的プログラミングに基づくRL法と教師あり学習(SL)に基づくRL法とを区別する数少ない方法の1つである。
これらの方法がこの重要な縫合特性を許すかどうかは不明である。
論文 参考訳(メタデータ) (2024-01-20T14:23:25Z) - RL-ViGen: A Reinforcement Learning Benchmark for Visual Generalization [23.417092819516185]
視覚一般化のための強化学習ベンチマークRL-ViGenを紹介する。
RL-ViGenは多種多様なタスクと幅広い一般化型を含み、より信頼性の高い結論の導出を容易にする。
我々の願望は、RL-ViGenが将来の普遍的な視覚一般化RLエージェントの創出の触媒となることである。
論文 参考訳(メタデータ) (2023-07-15T05:45:37Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。