論文の概要: Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability
- arxiv url: http://arxiv.org/abs/2204.04292v3
- Date: Mon, 24 Apr 2023 20:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 04:04:04.003109
- Title: Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability
- Title(参考訳): 一般化性と安定性のためのパレート最適アクター臨界アルゴリズムの進化
- Authors: Juan Jose Garau-Luis, Yingjie Miao, John D. Co-Reyes, Aaron Parisi,
Jie Tan, Esteban Real, Aleksandra Faust
- Abstract要約: 汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
- 参考スコア(独自算出の注目度): 67.8426046908398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalizability and stability are two key objectives for operating
reinforcement learning (RL) agents in the real world. Designing RL algorithms
that optimize these objectives can be a costly and painstaking process. This
paper presents MetaPG, an evolutionary method for automated design of
actor-critic loss functions. MetaPG explicitly optimizes for generalizability
and performance, and implicitly optimizes the stability of both metrics. We
initialize our loss function population with Soft Actor-Critic (SAC) and
perform multi-objective optimization using fitness metrics encoding single-task
performance, zero-shot generalizability to unseen environment configurations,
and stability across independent runs with different random seeds. On a set of
continuous control tasks from the Real-World RL Benchmark Suite, we find that
our method, using a single environment during evolution, evolves algorithms
that improve upon SAC's performance and generalizability by 4% and 20%,
respectively, and reduce instability up to 67%. Then, we scale up to more
complex environments from the Brax physics simulator and replicate
generalizability tests encountered in practical settings, such as different
friction coefficients. MetaPG evolves algorithms that can obtain 10% better
generalizability without loss of performance within the same meta-training
environment and obtain similar results to SAC when doing cross-domain
evaluations in other Brax environments. The evolution results are
interpretable; by analyzing the structure of the best algorithms we identify
elements that help optimizing certain objectives, such as regularization terms
for the critic loss.
- Abstract(参考訳): 汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な目的である。
これらの目的を最適化するRLアルゴリズムの設計には、コストと手間がかかる。
本稿では,アクター批判損失関数の自動設計法であるMetaPGを提案する。
MetaPGは、一般化性とパフォーマンスを明示的に最適化し、両方のメトリクスの安定性を暗黙的に最適化する。
我々は,SAC(Soft Actor-Critic)を用いて損失関数群を初期化し,単一タスク性能を符号化した適合度測定値を用いて多目的最適化を行う。
実世界のrlベンチマークスイートから得られた一連の連続制御タスクにおいて,本手法は進化中の単一環境を用いて,sacの性能と一般化性を改善するアルゴリズムをそれぞれ4%,20%改善し,不安定度を67%まで低減することを見出した。
次に、brax物理シミュレータからより複雑な環境にスケールアップし、摩擦係数の異なるような実用的な設定で遭遇する一般化可能性試験を再現する。
MetaPGは、同じメタトレーニング環境でパフォーマンスを損なうことなく10%優れた一般化性を得るアルゴリズムを進化させ、他のBrax環境でクロスドメイン評価を行う際に、SACと同様の結果を得る。
最良のアルゴリズムの構造を分析することによって、批評家の損失の正規化用語のような特定の目的を最適化するのに役立つ要素を識別する。
関連論文リスト
- Stability and Generalization for Stochastic Recursive Momentum-based Algorithms for (Strongly-)Convex One to $K$-Level Stochastic Optimizations [20.809499420384256]
STORMベースのアルゴリズムは、K$レベル(K geq 3$)の最適化問題を解決するために広く開発されている。
本稿では,STORMに基づく3つの代表的なアルゴリズムを包括的に分析する。
論文 参考訳(メタデータ) (2024-07-07T07:07:04Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - An Invariant Information Geometric Method for High-Dimensional Online
Optimization [9.538618632613714]
本稿では,対応するフレームワークから派生した,完全な不変性指向進化戦略アルゴリズムを提案する。
ベイズ最適化と進化戦略における主要なアルゴリズムに対してSynCMAをベンチマークする。
あらゆるシナリオにおいて、SynCMAはサンプル効率において他のアルゴリズムよりも優れた能力を示す。
論文 参考訳(メタデータ) (2024-01-03T07:06:26Z) - Advancements in Optimization: Adaptive Differential Evolution with
Diversification Strategy [0.0]
この研究は2次元空間において単目的最適化を採用し、複数の反復で各ベンチマーク関数上でADEDSを実行する。
ADEDSは、多くの局所最適化、プレート型、谷型、伸縮型、ノイズの多い機能を含む様々な最適化課題において、標準Dより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-02T10:05:41Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Generalized Reinforcement Meta Learning for Few-Shot Optimization [3.7675996866306845]
本稿では, 汎用的かつ柔軟な強化学習(RL)に基づくメタラーニングフレームワークを提案する。
我々のフレームワークは簡単にネットワークアーキテクチャ検索に拡張できる。
論文 参考訳(メタデータ) (2020-05-04T03:21:05Z) - Stochastic batch size for adaptive regularization in deep network
optimization [63.68104397173262]
ディープラーニングフレームワークにおける機械学習問題に適用可能な適応正規化を取り入れた一階最適化アルゴリズムを提案する。
一般的なベンチマークデータセットに適用した従来のネットワークモデルに基づく画像分類タスクを用いて,提案アルゴリズムの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2020-04-14T07:54:53Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。