論文の概要: Exploring Novel Quality Diversity Methods For Generalization in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.14592v1
- Date: Sun, 26 Mar 2023 00:23:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:46:46.322060
- Title: Exploring Novel Quality Diversity Methods For Generalization in
Reinforcement Learning
- Title(参考訳): 強化学習における一般化のための新しい品質多様性手法の探求
- Authors: Brad Windsor, Brandon O'Shea, Mengxi Wu
- Abstract要約: 強化学習分野は成果に強く、再適用に弱い。
本稿では,ネットワークの学習方法が一般化を改善するかどうかを問う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Reinforcement Learning field is strong on achievements and weak on
reapplication; a computer playing GO at a super-human level is still terrible
at Tic-Tac-Toe. This paper asks whether the method of training networks
improves their generalization. Specifically we explore core quality diversity
algorithms, compare against two recent algorithms, and propose a new algorithm
to deal with shortcomings in existing methods. Although results of these
methods are well below the performance hoped for, our work raises important
points about the choice of behavior criterion in quality diversity, the
interaction of differential and evolutionary training methods, and the role of
offline reinforcement learning and randomized learning in evolutionary search.
- Abstract(参考訳): 強化学習分野は、成果と再適用の弱さに強く依存しており、スーパーヒューマンレベルでgoをプレイするコンピュータは、tic-tac-toeでは依然としてひどい。
本稿では,ネットワークの学習方法が一般化を改善するかどうかを問う。
具体的には,コア品質の多様性アルゴリズムを探索し,最近の2つのアルゴリズムと比較し,既存手法の欠点に対処する新しいアルゴリズムを提案する。
これらの方法の結果は期待される性能よりもかなり低いが,本研究は品質多様性における行動基準の選択,微分訓練と進化訓練の相互作用,進化探索におけるオフライン強化学習とランダム学習の役割に関する重要なポイントを提起する。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Diverse Policies Converge in Reward-free Markov Decision Processe [19.42193141047252]
我々は、多様性強化学習の枠組みを統一し、多様な政策の訓練の収束について検討する。
また,このような枠組みの下で,効率の良い多様性強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-23T05:17:51Z) - Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer
Communication [0.0]
本稿では、進化的戦略と呼ばれる特定の進化的アルゴリズムのファミリーと、非政治的な深層強化学習アルゴリズムTD3を組み合わせた新しい進化的強化学習モデルを提案する。
提案アルゴリズムは,MuJoCo制御タスク上で,現在の進化強化学習アルゴリズムと競合して動作することを示す。
論文 参考訳(メタデータ) (2023-06-20T13:41:57Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Qualitative Differences Between Evolutionary Strategies and
Reinforcement Learning Methods for Control of Autonomous Agents [0.0]
我々は,OpenAI-ES進化戦略とPPO強化学習アルゴリズムという,最先端の2つのアルゴリズムに注目した。
i) 一般的な有効性, (ii) スパース報酬に対処する能力, (iii) 最小解の正当性/能力, (iv) 報酬形成への依存, (v) 環境条件の変動に対処する能力。
論文 参考訳(メタデータ) (2022-05-16T11:51:36Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Behavior-based Neuroevolutionary Training in Reinforcement Learning [3.686320043830301]
本稿では,神経進化的最適化と価値に基づく強化学習を組み合わせたハイブリッドアルゴリズムを提案する。
この目的のために,エージェントポリシーの生成と最適化のための異なる手法を統合し,多様な集団を創出する。
その結果, 進化的手法のサンプル効率と学習速度を向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-17T15:40:42Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。