論文の概要: The Role of Diverse Replay for Generalisation in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.05727v1
- Date: Fri, 9 Jun 2023 07:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:18:44.812836
- Title: The Role of Diverse Replay for Generalisation in Reinforcement Learning
- Title(参考訳): 強化学習における一般化のための多種多様なリプレイの役割
- Authors: Max Weltevrede, Matthijs T.J. Spaan, Wendelin B\"ohmer
- Abstract要約: 強化学習における探索戦略とリプレイバッファが一般化に与える影響について検討する。
トレーニング環境からより多様なデータを収集し、訓練することで、ゼロショットの一般化が新しい環境やタスクに改善されることが示される。
- 参考スコア(独自算出の注目度): 6.754994171490016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning (RL), key components of many algorithms are the
exploration strategy and replay buffer. These strategies regulate what
environment data is collected and trained on and have been extensively studied
in the RL literature. In this paper, we investigate the impact of these
components in the context of generalisation in multi-task RL. We investigate
the hypothesis that collecting and training on more diverse data from the
training environment will improve zero-shot generalisation to new
environments/tasks. We motivate mathematically and show empirically that
generalisation to states that are "reachable" during training is improved by
increasing the diversity of transitions in the replay buffer. Furthermore, we
show empirically that this same strategy also shows improvement for
generalisation to similar but "unreachable" states and could be due to improved
generalisation of latent representations.
- Abstract(参考訳): 強化学習(RL)において、多くのアルゴリズムの重要な要素は探索戦略と再生バッファである。
これらの戦略は、収集および訓練された環境データを規制し、RL文献で広く研究されている。
本稿では,マルチタスクRLにおける一般化の文脈におけるこれらの成分の影響について検討する。
我々は,学習環境からより多様なデータを収集し,訓練することで,ゼロショットの一般化が新しい環境やタスクに改善されるという仮説を考察する。
我々は数学的動機付けを行い,リプレイバッファにおける遷移の多様性を増すことにより,トレーニング中に「到達可能」状態への一般化が改善されることを示す。
さらに、この戦略は類似するが「到達不能」な状態への一般化も改善し、潜在表現の一般化が改善されることも実証的に示している。
関連論文リスト
- Training on more Reachable Tasks for Generalisation in Reinforcement Learning [5.855552389030083]
マルチタスク強化学習では、エージェントは一定のタスクセットでトレーニングを行い、新しいタスクに一般化する必要がある。
近年の研究では、探索の増加がこの一般化を改善することが示されているが、その理由は不明である。
マルチタスク強化学習における到達可能性の概念を導入し、初期探索フェーズがエージェントが訓練する到達可能なタスクの数を増やすことを示す。
論文 参考訳(メタデータ) (2024-10-04T16:15:31Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:17:15Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Instance based Generalization in Reinforcement Learning [24.485597364200824]
部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析
探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。
我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:19:44Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。