論文の概要: Discovering Evolution Strategies via Meta-Black-Box Optimization
- arxiv url: http://arxiv.org/abs/2211.11260v1
- Date: Mon, 21 Nov 2022 08:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:34:19.846286
- Title: Discovering Evolution Strategies via Meta-Black-Box Optimization
- Title(参考訳): メタブラックボックス最適化による進化戦略の発見
- Authors: Robert Tjarko Lange, Tom Schaul, Yutian Chen, Tom Zahavy, Valenti
Dallibard, Chris Lu, Satinder Singh, Sebastian Flennerhag
- Abstract要約: メタラーニングによる進化戦略の効果的な更新ルールの発見を提案する。
本手法では,自己注意型アーキテクチャによってパラメータ化された探索戦略を用いる。
進化戦略をスクラッチから自己参照的に訓練することは可能であり、学習された更新ルールは外部メタラーニングループを駆動するために使用される。
- 参考スコア(独自算出の注目度): 23.956974467496345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing functions without access to gradients is the remit of black-box
methods such as evolution strategies. While highly general, their learning
dynamics are often times heuristic and inflexible - exactly the limitations
that meta-learning can address. Hence, we propose to discover effective update
rules for evolution strategies via meta-learning. Concretely, our approach
employs a search strategy parametrized by a self-attention-based architecture,
which guarantees the update rule is invariant to the ordering of the candidate
solutions. We show that meta-evolving this system on a small set of
representative low-dimensional analytic optimization problems is sufficient to
discover new evolution strategies capable of generalizing to unseen
optimization problems, population sizes and optimization horizons. Furthermore,
the same learned evolution strategy can outperform established neuroevolution
baselines on supervised and continuous control tasks. As additional
contributions, we ablate the individual neural network components of our
method; reverse engineer the learned strategy into an explicit heuristic form,
which remains highly competitive; and show that it is possible to
self-referentially train an evolution strategy from scratch, with the learned
update rule used to drive the outer meta-learning loop.
- Abstract(参考訳): 勾配にアクセスせずに関数を最適化することは、進化戦略のようなブラックボックスメソッドの送金である。
非常に一般的にはありますが、彼らの学習ダイナミクスは、しばしばヒューリスティックで柔軟性のないものです。
そこで,メタラーニングによる進化戦略の効果的な更新ルールの発見を提案する。
具体的には,提案手法では,自己アテンションに基づくアーキテクチャによってパラメータ化された探索戦略を採用し,更新ルールが候補解の順序に不変であることを保証する。
本稿では, このシステムを低次元解析最適化問題の一群にメタ進化させることで, 未確認の最適化問題, 人口規模, 最適化の地平線を一般化できる新たな進化戦略を見出すのに十分であることを示す。
さらに、同じ学習された進化戦略は、教師付きおよび継続的な制御タスクにおいて確立された神経進化のベースラインを上回ることができる。
新たなコントリビューションとして、私たちのメソッドの個々のニューラルネットワークコンポーネントを廃止し、学習した戦略を非常に競争力のある明確なヒューリスティックな形式にリバースエンジニアリングし、外部メタラーニングループの駆動に使用する学習更新ルールを用いて、進化戦略をゼロから自己参照的にトレーニングすることが可能であることを示します。
関連論文リスト
- Can Learned Optimization Make Reinforcement Learning Less Difficult? [70.5036361852812]
学習の最適化が強化学習の難しさを克服するのに役立つかどうかを検討する。
本稿では, 塑性, 探索および非定常性のための学習最適化手法(OPEN)を用いて, 入力特性と出力構造がこれらの困難に対して予め提案された情報によって通知される更新規則をメタラーニングする。
論文 参考訳(メタデータ) (2024-07-09T17:55:23Z) - Solving Deep Reinforcement Learning Tasks with Evolution Strategies and Linear Policy Networks [0.017476232824732776]
本研究では、勾配に基づく深層強化学習法と比較して、進化戦略がどのように機能するかを考察する。
我々は、3つの勾配に基づく手法の観測から行動までの1つの線形層からなるディープポリシーネットワークとネットワークをベンチマークする。
以上の結果から,Evolution Strategies は,多くの強化学習ベンチマークタスクに対して効果的な線形ポリシーを見出すことができることがわかった。
論文 参考訳(メタデータ) (2024-02-10T09:15:21Z) - Meta-Learning Strategies through Value Maximization in Neural Networks [7.285835869818669]
完全に規範的な目的に対して制御信号を効率よく最適化できる学習活動フレームワークを提案する。
本稿では,一般的なメタ学習アルゴリズムにおける近似の影響について検討する。
設定全体では、学習の早い段階でタスクの容易な側面に適用する場合、制御の取り組みが最も有益であることが分かります。
論文 参考訳(メタデータ) (2023-10-30T18:29:26Z) - Variance-Reduced Gradient Estimation via Noise-Reuse in Online Evolution
Strategies [50.10277748405355]
Noise-Reuse Evolution Strategies (NRES) は、非バイアスのオンライン進化戦略の一般的なクラスである。
NRESの結果は既存のAD法やES法よりも早く,様々なアプリケーションにまたがるウォールクロック時間とステップ数で収束することを示す。
論文 参考訳(メタデータ) (2023-04-21T17:53:05Z) - Meta Mirror Descent: Optimiser Learning for Fast Convergence [85.98034682899855]
我々は、勾配降下ではなくミラー降下から始まり、対応するブレグマン発散をメタラーニングする。
このパラダイム内では、後悔の限界を最小化するための新しいメタ学習目標を定式化する。
多くのメタ学習オプティマイザとは異なり、収束と一般化の保証もサポートしており、検証データを必要としない。
論文 参考訳(メタデータ) (2022-03-05T11:41:13Z) - Bootstrapped Meta-Learning [48.017607959109924]
本稿では,メタ学習者が自らを教えることによって,メタ最適化問題に挑戦するアルゴリズムを提案する。
アルゴリズムはまずメタラーナーからターゲットをブートストラップし、選択した(擬似)測度の下でそのターゲットまでの距離を最小化することでメタラーナーを最適化する。
我々は、Atari ALEベンチマークでモデルフリーエージェントの新たな最先端技術を実現し、数ショットの学習においてMAMLを改善し、我々のアプローチがいかに新しい可能性を開くかを実証する。
論文 参考訳(メタデータ) (2021-09-09T18:29:05Z) - Population-Based Evolution Optimizes a Meta-Learning Objective [0.6091702876917279]
メタラーニングと適応的進化性は,一連の学習繰り返しの後,高い性能を最適化する。
我々は、この主張を単純な進化的アルゴリズム、Population-Based Meta Learningで実証する。
論文 参考訳(メタデータ) (2021-03-11T03:45:43Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Evolving Inborn Knowledge For Fast Adaptation in Dynamic POMDP Problems [5.23587935428994]
本稿では,POMDPにおける自己エンコーダの潜伏空間を利用した制御器を進化させるために,ニューラルネットワークの高度適応性を利用する。
生まれながらの知識とオンラインの可塑性の統合は、進化的でないメタ強化学習アルゴリズムと比較して、迅速な適応と性能の向上を可能にした。
論文 参考訳(メタデータ) (2020-04-27T14:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。