論文の概要: Assessing Quality-Diversity Neuro-Evolution Algorithms Performance in
Hard Exploration Problems
- arxiv url: http://arxiv.org/abs/2211.13742v2
- Date: Fri, 8 Sep 2023 09:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 18:49:19.371120
- Title: Assessing Quality-Diversity Neuro-Evolution Algorithms Performance in
Hard Exploration Problems
- Title(参考訳): ハード探索問題における品質多様性ニューロ進化アルゴリズムの性能評価
- Authors: Felix Chalumeau, Thomas Pierrot, Valentin Mac\'e, Arthur Flajolet,
Karim Beguir, Antoine Cully and Nicolas Perrin-Gilbert
- Abstract要約: QD法(Quality-Diversity method)は、高い性能のニッチ生物を生産する自然の能力に触発された進化的アルゴリズムである。
本稿では,探索困難を伴う高次元制御問題を示す3つの候補ベンチマークについて述べる。
私たちはまた、Jaxのオープンソース実装を提供し、実践者が少ない計算リソース上で高速かつ多数の実験を実行できるようにします。
- 参考スコア(独自算出の注目度): 10.871978893808533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fascinating aspect of nature lies in its ability to produce a collection of
organisms that are all high-performing in their niche. Quality-Diversity (QD)
methods are evolutionary algorithms inspired by this observation, that obtained
great results in many applications, from wing design to robot adaptation.
Recently, several works demonstrated that these methods could be applied to
perform neuro-evolution to solve control problems in large search spaces. In
such problems, diversity can be a target in itself. Diversity can also be a way
to enhance exploration in tasks exhibiting deceptive reward signals. While the
first aspect has been studied in depth in the QD community, the latter remains
scarcer in the literature. Exploration is at the heart of several domains
trying to solve control problems such as Reinforcement Learning and QD methods
are promising candidates to overcome the challenges associated. Therefore, we
believe that standardized benchmarks exhibiting control problems in high
dimension with exploration difficulties are of interest to the QD community. In
this paper, we highlight three candidate benchmarks and explain why they appear
relevant for systematic evaluation of QD algorithms. We also provide
open-source implementations in Jax allowing practitioners to run fast and
numerous experiments on few compute resources.
- Abstract(参考訳): 自然界の興味深い側面は、ニッチでハイパフォーマンスな生物の集まりを生み出す能力にある。
品質多様性(qd)法は、この観察に触発された進化的アルゴリズムであり、翼の設計からロボット適応まで、多くの応用で素晴らしい結果を得た。
近年, 大規模な探索空間における制御問題を解くために, 神経進化にこれらの手法を適用できることが実証されている。
このような問題では、多様性自体がターゲットとなる可能性がある。
多様性は、偽りの報酬信号を示すタスクの探索を強化する方法でもある。
第1の側面はQDコミュニティで深く研究されているが、第2の側面は文献に乏しい。
強化学習(Reinforcement Learning)やQDメソッド(QD)といった制御問題の解決を目指すいくつかのドメインの中核である探索は、関連する課題を克服する有望な候補である。
したがって,調査難易度の高い高次元の制御問題を示す標準ベンチマークが,qdコミュニティの関心を引いていると考えられる。
本稿では,3つの候補ベンチマークに注目し,qdアルゴリズムの系統的評価になぜ関連があるかを説明する。
jax のオープンソース実装も提供していますので,少数の計算リソースで高速かつ多数の実験を実行できます。
関連論文リスト
- SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z) - Quality Diversity under Sparse Reward and Sparse Interaction:
Application to Grasping in Robotics [0.0]
QD法(Quality-Diversity Method)は、与えられた問題に対して多種多様な高性能なソリューションセットを生成することを目的としたアルゴリズムである。
本研究は,ロボット工学における把握にQDがどう対処できるかを考察する。
ロボットグリップの2つの異なるセットアップと5つの標準オブジェクトに対応して、ドメインを10個把握する15の異なる方法の実験が行われた。
論文 参考訳(メタデータ) (2023-08-10T10:19:48Z) - Efficient Quality-Diversity Optimization through Diverse Quality Species [3.428706362109921]
我々は,アーカイブの必要をなくしたり,事前の動作範囲を定義したりすることなく,多様な解の集団を見つけることができることを示す。
本稿では,アーカイブベースの品質多様性(QD)アルゴリズムの代替として,DQS(Diverse Quality Species)を提案する。
論文 参考訳(メタデータ) (2023-04-14T23:15:51Z) - Evolutionary Deep Reinforcement Learning Using Elite Buffer: A Novel
Approach Towards DRL Combined with EA in Continuous Control Tasks [0.0]
本研究の目的は、深層強化学習と進化計算の2つの分野を組み合わせることの効率性を検討することである。
Evolutionary Deep Reinforcement Learning Using Elite Buffer"アルゴリズムは、対話型学習能力と人間の脳における仮説的結果からインスピレーションを得て、新しいメカニズムを導入した。
実験結果によると,提案手法は複雑で次元の大きい環境において,他のよく知られた手法を超越している。
論文 参考訳(メタデータ) (2022-09-18T05:56:41Z) - Relevance-guided Unsupervised Discovery of Abilities with
Quality-Diversity Algorithms [1.827510863075184]
本稿では,その課題に適した行動特性を自律的に発見する品質多様性アルゴリズムであるRelevance-guided Unsupervised Discovery of Abilitiesを紹介する。
我々は、ロボットが完全な感覚データに基づいて自律的にその能力を発見しなければならない、シミュレーションされたロボット環境に対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-04-21T00:29:38Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Diversity Policy Gradient for Sample Efficient Quality-Diversity
Optimization [7.8499505363825755]
多様性とパフォーマンスを両立させることは、探索・探索のトレードオフに対処するための便利な方法である。
本稿では、ポリシーグラディエントアルゴリズムと品質多様性アプローチの強みを組み合わせた新しいアルゴリズムQDPGを提案する。
論文 参考訳(メタデータ) (2020-06-15T16:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。