論文の概要: Efficient Exploration using Model-Based Quality-Diversity with Gradients
- arxiv url: http://arxiv.org/abs/2211.12610v1
- Date: Tue, 22 Nov 2022 22:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:26:54.043749
- Title: Efficient Exploration using Model-Based Quality-Diversity with Gradients
- Title(参考訳): 勾配を用いたモデルベース品質多様性を用いた効率的な探索
- Authors: Bryan Lim, Manon Flageat, Antoine Cully
- Abstract要約: 本稿では,モデルに基づく品質多様性アプローチを提案する。
既存のQD手法を拡張して、効率的な利用のために勾配を使い、効率的な探索のために想像において摂動を利用する。
提案手法は, 対外報酬を伴うタスクにおいて, 集団ベースアプローチの多様な探索能力を維持しつつ, サンプル効率と解の質を大幅に向上させることを実証する。
- 参考スコア(独自算出の注目度): 4.788163807490196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploration is a key challenge in Reinforcement Learning, especially in
long-horizon, deceptive and sparse-reward environments. For such applications,
population-based approaches have proven effective. Methods such as
Quality-Diversity deals with this by encouraging novel solutions and producing
a diversity of behaviours. However, these methods are driven by either
undirected sampling (i.e. mutations) or use approximated gradients (i.e.
Evolution Strategies) in the parameter space, which makes them highly
sample-inefficient. In this paper, we propose a model-based Quality-Diversity
approach. It extends existing QD methods to use gradients for efficient
exploitation and leverage perturbations in imagination for efficient
exploration. Our approach optimizes all members of a population simultaneously
to maintain both performance and diversity efficiently by leveraging the
effectiveness of QD algorithms as good data generators to train deep models. We
demonstrate that it maintains the divergent search capabilities of
population-based approaches on tasks with deceptive rewards while significantly
improving their sample efficiency and quality of solutions.
- Abstract(参考訳): 探索は強化学習において重要な課題であり、特に長期ホリゾン、偽装、疎弱な環境においてである。
このような用途では、人口ベースのアプローチが有効であることが証明されている。
品質多様性のような手法は、新しい解決策を奨励し、行動の多様性を生み出すことによってこれに対処する。
しかし、これらの手法は無向サンプリング(突然変異)またはパラメータ空間における近似勾配(進化戦略)によって駆動されるため、非常にサンプル効率が低下する。
本稿では,モデルに基づく品質多様性アプローチを提案する。
既存のQD手法を拡張して、効率的な利用のために勾配を使い、効率的な探索のために想像において摂動を利用する。
本手法では,qdアルゴリズムの有効性をデータジェネレータとして活用し,集団のすべてのメンバを同時に最適化し,パフォーマンスと多様性を効率的に維持する。
提案手法は,提案手法の多種多様な探索能力を維持しつつ,そのサンプル効率と解の質を著しく向上させることを実証する。
関連論文リスト
- Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - On the Robustness of Fully-Spiking Neural Networks in Open-World Scenarios using Forward-Only Learning Algorithms [6.7236795813629]
我々はフォワードフォワードアルゴリズム(FFA)を用いたOoD(Out-of-Distribution)検出のための新しいアルゴリズムを開発した。
提案手法は, 標本の潜在表現からクラス表現多様体への距離を用いて, 分布内(ID)データに属するサンプルの確率を測定する。
また,任意のクラスの分布から遠ざかるサンプルの特徴を強調表示するグラデーションフリー属性手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T08:08:17Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Efficient Methods for Natural Language Processing: A Survey [76.34572727185896]
本研究は, 効率的なNLPにおける現在の手法と知見を合成し, 関連づけるものである。
我々は,限られた資源下でNLPを実施するためのガイダンスと,より効率的な手法を開発するための有望な研究方向性の両立を目指す。
論文 参考訳(メタデータ) (2022-08-31T20:32:35Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Fast and stable MAP-Elites in noisy domains using deep grids [1.827510863075184]
Deep-Grid MAP-ElitesはMAP-Elitesアルゴリズムの変種である。
この単純なアプローチは、適合性最適化の観点から競争性能を達成しつつ、動作記述子のノイズに対する耐性が著しく高いことを示す。
論文 参考訳(メタデータ) (2020-06-25T08:47:23Z) - Diversity Policy Gradient for Sample Efficient Quality-Diversity
Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。
本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文 参考訳(メタデータ) (2020-06-15T16:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。