論文の概要: Exploration Implies Data Augmentation: Reachability and Generalisation in Contextual MDPs
- arxiv url: http://arxiv.org/abs/2410.03565v2
- Date: Wed, 05 Mar 2025 10:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:49:56.393488
- Title: Exploration Implies Data Augmentation: Reachability and Generalisation in Contextual MDPs
- Title(参考訳): 探索がデータ拡張に影響を及ぼす: コンテキストMDPの到達可能性と一般化
- Authors: Max Weltevrede, Caroline Horsch, Matthijs T. J. Spaan, Wendelin Böhmer,
- Abstract要約: より多くの状態におけるトレーニングは、実際に一般化を改善することができるが、学習された値関数の精度を下げるコストがかかる可能性があることを示す。
本稿では,各エピソードの冒頭に探索フェーズを実装したExplore-Goを提案する。
- 参考スコア(独自算出の注目度): 5.855552389030083
- License:
- Abstract: In the zero-shot policy transfer (ZSPT) setting for contextual Markov decision processes (MDP), agents train on a fixed set of contexts and must generalise to new ones. Recent work has argued and demonstrated that increased exploration can improve this generalisation, by training on more states in the training contexts. In this paper, we demonstrate that training on more states can indeed improve generalisation, but can come at a cost of reducing the accuracy of the learned value function which should not benefit generalisation. We introduce reachability in the ZSPT setting to define which states/contexts require generalisation and explain why exploration can improve it. We hypothesise and demonstrate that using exploration to increase the agent's coverage while also increasing the accuracy improves generalisation even more. Inspired by this, we propose a method Explore-Go that implements an exploration phase at the beginning of each episode, which can be combined with existing on- and off-policy RL algorithms and significantly improves generalisation even in partially observable MDPs. We demonstrate the effectiveness of Explore-Go when combined with several popular algorithms and show an increase in generalisation performance across several environments. With this, we hope to provide practitioners with a simple modification that can improve the generalisation of their agents.
- Abstract(参考訳): 文脈的マルコフ決定プロセス(MDP)のゼロショットポリシー転送(ZSPT)設定では、エージェントは一定のコンテキストセットでトレーニングを行い、新しいコンテキストに一般化する必要がある。
最近の研究は、トレーニングの文脈におけるより多くの状態のトレーニングによって、探索の増加がこの一般化を改善することを主張し、実証している。
本稿では,より多くの状態のトレーニングが一般化を改善することができるが,一般化の恩恵を受けないような学習値関数の精度を低下させるコストがかかることを実証する。
ZSPT設定に到達可能性を導入し、どの状態/コンテキストが一般化を必要とするかを定義し、なぜ探索がそれを改善するのかを説明する。
我々は、探索を用いてエージェントのカバレッジを増大させ、精度を高めて一般化をさらに向上させることを仮説および実証した。
そこで本研究では,各エピソードの冒頭に探索フェーズを実装したExplore-Goを提案する。これは既存のオン・オフ・ポリティクスのRLアルゴリズムと組み合わせることで,部分的に観測可能なMDPでも大幅に一般化できる。
いくつかの一般的なアルゴリズムと組み合わせることで,Explore-Goの有効性を実証し,複数の環境における一般化性能の向上を示す。
これにより、エージェントの一般化を改善するための簡単な修正を実践者に提供したいと思っています。
関連論文リスト
- Explore-Go: Leveraging Exploration for Generalisation in Deep Reinforcement Learning [5.624791703748109]
エージェントの一般化性能を高めるために,訓練中の探索量の増加を活用できることが示される。
本研究では,エージェントが訓練する状態の数を増やすことで,この直感を活用する新しい手法であるExplore-Goを提案する。
論文 参考訳(メタデータ) (2024-06-12T10:39:31Z) - The Role of Diverse Replay for Generalisation in Reinforcement Learning [7.399291598113285]
強化学習における探索戦略とリプレイバッファが一般化に与える影響について検討する。
トレーニング環境からより多様なデータの収集とトレーニングを行うことで、ゼロショットの一般化が新しいタスクに改善されることが示される。
論文 参考訳(メタデータ) (2023-06-09T07:48:36Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - CoMPS: Continual Meta Policy Search [113.33157585319906]
逐次マルチタスク学習における課題に対処する新しいメタ学習法を開発した。
CoMPSは、いくつかの課題のある連続制御タスクにおいて、事前の継続的な学習や外部のメタ強化手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-12-08T18:53:08Z) - Towards More Generalizable One-shot Visual Imitation Learning [81.09074706236858]
汎用ロボットは、幅広いタスクを習得し、過去の経験を生かして、新しいタスクを素早く学ぶことができるべきである。
ワンショット模倣学習(OSIL)は、専門家のデモンストレーションでエージェントを訓練することで、この目標にアプローチする。
我々は、より野心的なマルチタスク設定を調査することで、より高度な一般化能力を追求する。
論文 参考訳(メタデータ) (2021-10-26T05:49:46Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。