論文の概要: Training on more Reachable Tasks for Generalisation in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.03565v1
- Date: Fri, 4 Oct 2024 16:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-02 21:17:55.461787
- Title: Training on more Reachable Tasks for Generalisation in Reinforcement Learning
- Title(参考訳): 強化学習における一般化のためのより到達可能な課題の育成
- Authors: Max Weltevrede, Caroline Horsch, Matthijs T. J. Spaan, Wendelin Böhmer,
- Abstract要約: マルチタスク強化学習では、エージェントは一定のタスクセットでトレーニングを行い、新しいタスクに一般化する必要がある。
近年の研究では、探索の増加がこの一般化を改善することが示されているが、その理由は不明である。
マルチタスク強化学習における到達可能性の概念を導入し、初期探索フェーズがエージェントが訓練する到達可能なタスクの数を増やすことを示す。
- 参考スコア(独自算出の注目度): 5.855552389030083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-task reinforcement learning, agents train on a fixed set of tasks and have to generalise to new ones. Recent work has shown that increased exploration improves this generalisation, but it remains unclear why exactly that is. In this paper, we introduce the concept of reachability in multi-task reinforcement learning and show that an initial exploration phase increases the number of reachable tasks the agent is trained on. This, and not the increased exploration, is responsible for the improved generalisation, even to unreachable tasks. Inspired by this, we propose a novel method Explore-Go that implements such an exploration phase at the beginning of each episode. Explore-Go only modifies the way experience is collected and can be used with most existing on-policy or off-policy reinforcement learning algorithms. We demonstrate the effectiveness of our method when combined with some popular algorithms and show an increase in generalisation performance across several environments.
- Abstract(参考訳): マルチタスク強化学習では、エージェントは一定のタスクセットでトレーニングを行い、新しいタスクに一般化する必要がある。
近年の研究では、探索の増加がこの一般化を改善することが示されているが、その理由は不明である。
本稿では、マルチタスク強化学習における到達可能性の概念を導入し、初期探索フェーズがエージェントが訓練する到達可能なタスクの数を増やすことを示す。
これは、探索の増大ではなく、到達不可能なタスクに対しても、一般化の改善の責任がある。
そこで本研究では,各エピソードの開始時に,このような探索フェーズを実装する新しい手法であるExplore-Goを提案する。
Explore-Goは、経験の収集方法を変更するだけであり、既存のほとんどのオン・ポリティクスまたはオフ・ポリティクスの強化学習アルゴリズムで使用することができる。
いくつかの一般的なアルゴリズムと組み合わせることで,本手法の有効性を実証し,いくつかの環境における一般化性能の向上を示す。
関連論文リスト
- Good Actions Succeed, Bad Actions Generalize: A Case Study on Why RL Generalizes Better [0.3021678014343889]
監視学習(SL)と強化学習(RL)は、複雑なタスクのための汎用エージェントの訓練に広く用いられている。
本稿ではゼロショット一般化の観点からSLとRLを直接比較する。
論文 参考訳(メタデータ) (2025-03-19T21:03:27Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - Doubly Mild Generalization for Offline Reinforcement Learning [50.084440946096]
我々は,データセットを越えた軽度の一般化を信頼し,一定の条件下での性能向上に活用できることを実証した。
本研究では, (i) 軽度行動一般化と (ii) 軽度一般化伝搬からなる二重軽度一般化(DMG)を提案する。
DMGはGym-MuJoCoタスク間の最先端のパフォーマンスを実現し、AntMazeタスクに挑戦する。
論文 参考訳(メタデータ) (2024-11-12T17:04:56Z) - Explore-Go: Leveraging Exploration for Generalisation in Deep Reinforcement Learning [5.624791703748109]
エージェントの一般化性能を高めるために,訓練中の探索量の増加を活用できることが示される。
本研究では,エージェントが訓練する状態の数を増やすことで,この直感を活用する新しい手法であるExplore-Goを提案する。
論文 参考訳(メタデータ) (2024-06-12T10:39:31Z) - The Role of Diverse Replay for Generalisation in Reinforcement Learning [7.399291598113285]
強化学習における探索戦略とリプレイバッファが一般化に与える影響について検討する。
トレーニング環境からより多様なデータの収集とトレーニングを行うことで、ゼロショットの一般化が新しいタスクに改善されることが示される。
論文 参考訳(メタデータ) (2023-06-09T07:48:36Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - DART: Diversify-Aggregate-Repeat Training Improves Generalization of
Neural Networks [39.69378006723682]
ニューラルネットワークの一般化は、それらを現実世界に安全にデプロイするために不可欠である。
本研究は,まず,訓練用ミニバッチ内での多彩な拡張を利用した,驚くほど単純だが強力な一般化ベンチマークを確立する。
次に、まず、異なる拡張(または領域)を用いて多様なモデルを訓練し、損失流域を探索するダイバーシティ・アグリゲート・リピート・トレーニング(DART)戦略を提案する。
学習を通して集約のステップを繰り返すことで、全体的な最適化軌道が向上し、個々のモデルが十分な損失障壁を有して、それらの組み合わせによる一般化が向上することを確認する。
論文 参考訳(メタデータ) (2023-02-28T15:54:47Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - CoMPS: Continual Meta Policy Search [113.33157585319906]
逐次マルチタスク学習における課題に対処する新しいメタ学習法を開発した。
CoMPSは、いくつかの課題のある連続制御タスクにおいて、事前の継続的な学習や外部のメタ強化手法よりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-12-08T18:53:08Z) - Towards More Generalizable One-shot Visual Imitation Learning [81.09074706236858]
汎用ロボットは、幅広いタスクを習得し、過去の経験を生かして、新しいタスクを素早く学ぶことができるべきである。
ワンショット模倣学習(OSIL)は、専門家のデモンストレーションでエージェントを訓練することで、この目標にアプローチする。
我々は、より野心的なマルチタスク設定を調査することで、より高度な一般化能力を追求する。
論文 参考訳(メタデータ) (2021-10-26T05:49:46Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Predicting Deep Neural Network Generalization with Perturbation Response
Curves [58.8755389068888]
トレーニングネットワークの一般化能力を評価するための新しいフレームワークを提案する。
具体的には,一般化ギャップを正確に予測するための2つの新しい尺度を提案する。
PGDL(Predicting Generalization in Deep Learning)のNeurIPS 2020コンペティションにおけるタスクの大部分について、現在の最先端の指標よりも優れた予測スコアを得る。
論文 参考訳(メタデータ) (2021-06-09T01:37:36Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。