論文の概要: Multi-objective evolution for Generalizable Policy Gradient Algorithms
- arxiv url: http://arxiv.org/abs/2204.04292v1
- Date: Fri, 8 Apr 2022 20:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 10:53:58.105772
- Title: Multi-objective evolution for Generalizable Policy Gradient Algorithms
- Title(参考訳): 一般化可能なポリシー勾配アルゴリズムのための多目的進化
- Authors: Juan Jose Garau-Luis, Yingjie Miao, John D. Co-Reyes, Aaron Parisi,
Jie Tan, Esteban Real, Aleksandra Faust
- Abstract要約: 性能、一般化可能性、安定性は、多くの実用アプリケーションに関連する3つの強化学習(RL)課題である。
本稿では,グラフとして表現される新しいRLアルゴリズムを発見する進化的手法であるMetaPGを提案する。
- 参考スコア(独自算出の注目度): 67.8426046908398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performance, generalizability, and stability are three Reinforcement Learning
(RL) challenges relevant to many practical applications in which they present
themselves in combination. Still, state-of-the-art RL algorithms fall short
when addressing multiple RL objectives simultaneously and current human-driven
design practices might not be well-suited for multi-objective RL. In this paper
we present MetaPG, an evolutionary method that discovers new RL algorithms
represented as graphs, following a multi-objective search criteria in which
different RL objectives are encoded in separate fitness scores. Our findings
show that, when using a graph-based implementation of Soft Actor-Critic (SAC)
to initialize the population, our method is able to find new algorithms that
improve upon SAC's performance and generalizability by 3% and 17%,
respectively, and reduce instability up to 65%. In addition, we analyze the
graph structure of the best algorithms in the population and offer an
interpretation of specific elements that help trading performance for
generalizability and vice versa. We validate our findings in three different
continuous control tasks: RWRL Cartpole, RWRL Walker, and Gym Pendulum.
- Abstract(参考訳): パフォーマンス、一般化性、安定性は、3つの強化学習(rl)の課題であり、それらは自分たちを組み合わせる多くの実用的なアプリケーションに関連する。
それでも、最先端のRLアルゴリズムは、複数のRL目標に同時に対処する際に不足している。
本稿では,グラフとして表現される新しいRLアルゴリズムを発見する進化的手法であるMetaPGを提案する。
その結果,sac (soft actor-critic, sac) をグラフベースで実装して個体群の初期化を行うと,sacの性能と一般化性をそれぞれ3%, 17%向上させ, 最大65%の不安定性を低減できる新しいアルゴリズムが得られた。
さらに,個体群における最良アルゴリズムのグラフ構造を分析し,汎用性のためのトレーディングパフォーマンスに役立つ特定の要素を解釈し,その逆も提供する。
RWRL Cartpole, RWRL Walker, Gym Pendulumの3つの連続制御タスクにおいて, 実験結果を検証した。
関連論文リスト
- Stability and Generalization for Stochastic Recursive Momentum-based Algorithms for (Strongly-)Convex One to $K$-Level Stochastic Optimizations [20.809499420384256]
STORMベースのアルゴリズムは、K$レベル(K geq 3$)の最適化問題を解決するために広く開発されている。
本稿では,STORMに基づく3つの代表的なアルゴリズムを包括的に分析する。
論文 参考訳(メタデータ) (2024-07-07T07:07:04Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - An Invariant Information Geometric Method for High-Dimensional Online
Optimization [9.538618632613714]
本稿では,対応するフレームワークから派生した,完全な不変性指向進化戦略アルゴリズムを提案する。
ベイズ最適化と進化戦略における主要なアルゴリズムに対してSynCMAをベンチマークする。
あらゆるシナリオにおいて、SynCMAはサンプル効率において他のアルゴリズムよりも優れた能力を示す。
論文 参考訳(メタデータ) (2024-01-03T07:06:26Z) - Advancements in Optimization: Adaptive Differential Evolution with
Diversification Strategy [0.0]
この研究は2次元空間において単目的最適化を採用し、複数の反復で各ベンチマーク関数上でADEDSを実行する。
ADEDSは、多くの局所最適化、プレート型、谷型、伸縮型、ノイズの多い機能を含む様々な最適化課題において、標準Dより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-02T10:05:41Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Generalized Reinforcement Meta Learning for Few-Shot Optimization [3.7675996866306845]
本稿では, 汎用的かつ柔軟な強化学習(RL)に基づくメタラーニングフレームワークを提案する。
我々のフレームワークは簡単にネットワークアーキテクチャ検索に拡張できる。
論文 参考訳(メタデータ) (2020-05-04T03:21:05Z) - Stochastic batch size for adaptive regularization in deep network
optimization [63.68104397173262]
ディープラーニングフレームワークにおける機械学習問題に適用可能な適応正規化を取り入れた一階最適化アルゴリズムを提案する。
一般的なベンチマークデータセットに適用した従来のネットワークモデルに基づく画像分類タスクを用いて,提案アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2020-04-14T07:54:53Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。