論文の概要: Scaling Policy Gradient Quality-Diversity with Massive Parallelization via Behavioral Variations
- arxiv url: http://arxiv.org/abs/2501.18723v1
- Date: Thu, 30 Jan 2025 19:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:04:03.162141
- Title: Scaling Policy Gradient Quality-Diversity with Massive Parallelization via Behavioral Variations
- Title(参考訳): 行動変動による大規模並列化による政策勾配品質多様性のスケーリング
- Authors: Konstantinos Mitsides, Maxence Faldor, Antoine Cully,
- Abstract要約: 大規模並列化でスケールアップ可能な,高速で,サンプル効率のよいMEベースアルゴリズムを提案する。
実験の結果、ASCII-MEは1つのGPU上で250秒未満で、多種多様な高性能なディープニューラルネットワークポリシーを生成できることがわかった。
- 参考スコア(独自算出の注目度): 4.787389127632926
- License:
- Abstract: Quality-Diversity optimization comprises a family of evolutionary algorithms aimed at generating a collection of diverse and high-performing solutions. MAP-Elites (ME), a notable example, is used effectively in fields like evolutionary robotics. However, the reliance of ME on random mutations from Genetic Algorithms limits its ability to evolve high-dimensional solutions. Methods proposed to overcome this include using gradient-based operators like policy gradients or natural evolution strategies. While successful at scaling ME for neuroevolution, these methods often suffer from slow training speeds, or difficulties in scaling with massive parallelization due to high computational demands or reliance on centralized actor-critic training. In this work, we introduce a fast, sample-efficient ME based algorithm capable of scaling up with massive parallelization, significantly reducing runtimes without compromising performance. Our method, ASCII-ME, unlike existing policy gradient quality-diversity methods, does not rely on centralized actor-critic training. It performs behavioral variations based on time step performance metrics and maps these variations to solutions using policy gradients. Our experiments show that ASCII-ME can generate a diverse collection of high-performing deep neural network policies in less than 250 seconds on a single GPU. Additionally, it operates on average, five times faster than state-of-the-art algorithms while still maintaining competitive sample efficiency.
- Abstract(参考訳): 品質多様性最適化は、多種多様な高性能なソリューションのコレクションを生成することを目的とした進化的アルゴリズムのファミリーである。
MAP-Elites (ME) は、進化ロボット工学のような分野において効果的に使われている。
しかし、遺伝的アルゴリズムからのランダムな突然変異に対するMEの依存は、高次元の解を進化させる能力を制限する。
これを解決するために提案された手法には、ポリシー勾配や自然進化戦略のような勾配に基づく演算子の使用がある。
神経進化のためのMEのスケーリングは成功したが、これらの手法は訓練速度の遅さや、高い計算要求やアクター批判的トレーニングへの依存による大規模な並列化によるスケーリングの困難に悩まされることが多い。
本研究では,大規模な並列化でスケールアップし,性能を損なうことなくランタイムを大幅に削減する,高速でサンプル効率のよいMEベースアルゴリズムを提案する。
ASCII-ME法は,従来の方針勾配品質多様性法とは異なり,アクター・クリティカルトレーニングに頼っていない。
タイムステップのパフォーマンス指標に基づいて振る舞いのバリエーションを実行し、ポリシー勾配を使用してこれらのバリエーションをソリューションにマップする。
実験の結果、ASCII-MEは1つのGPU上で250秒未満で、多種多様な高性能なディープニューラルネットワークポリシーを生成できることがわかった。
さらに、競争力のあるサンプル効率を維持しながら、最先端のアルゴリズムよりも平均5倍高速で動作する。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Massive Dimensions Reduction and Hybridization with Meta-heuristics in Deep Learning [0.24578723416255746]
ヒストグラムに基づく微分進化(HBDE)は、パラメータを最適化するために勾配に基づくアルゴリズムと勾配のないアルゴリズムをハイブリダイズする。
HBDEは、CIFAR-10とCIFAR-100データセットに基づいて評価されたベースライン勾配と親勾配のないDEMアルゴリズムより優れている。
論文 参考訳(メタデータ) (2024-08-13T20:28:20Z) - Non-convergence of Adam and other adaptive stochastic gradient descent optimization methods for non-vanishing learning rates [3.6185342807265415]
ディープラーニングアルゴリズムは多くの人工知能(AI)システムにおいて重要な要素である。
ディープラーニングアルゴリズムは通常、勾配降下(SGD)最適化法によって訓練されたディープニューラルネットワークのクラスで構成されている。
論文 参考訳(メタデータ) (2024-07-11T00:10:35Z) - Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - GE-AdvGAN: Improving the transferability of adversarial samples by
gradient editing-based adversarial generative model [69.71629949747884]
GAN(Generative Adversarial Networks)のような逆生成モデルは、様々な種類のデータを生成するために広く応用されている。
本研究では, GE-AdvGAN という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-11T16:43:16Z) - Improving Gradient Methods via Coordinate Transformations: Applications to Quantum Machine Learning [0.0]
機械学習アルゴリズムは勾配降下などの勾配に基づく最適化アルゴリズムに大きく依存している。
全体的な性能は、局所的なミニマと不毛の高原の出現に依存する。
本稿では,これらの手法の全般的な性能向上を図り,バレンプラトー効果と局所ミニマ効果を緩和する汎用戦略を提案する。
論文 参考訳(メタデータ) (2023-04-13T18:26:05Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Deep Reinforcement Learning for Field Development Optimization [0.0]
本研究の目的は,畳み込みニューラルネットワーク(CNN)深部強化学習(DRL)アルゴリズムをフィールド開発最適化問題に適用することである。
近似ポリシー最適化 (PPO) アルゴリズムは2つのCNNアーキテクチャで様々な層と構成を持つ。
両ネットワークは、ハイブリッド粒子群最適化(PSO-MADS)アルゴリズムと比較して満足な結果をもたらすポリシーを得た。
論文 参考訳(メタデータ) (2020-08-05T06:26:13Z) - GACEM: Generalized Autoregressive Cross Entropy Method for Multi-Modal
Black Box Constraint Satisfaction [69.94831587339539]
本稿では,マスク付き自己回帰ニューラルネットワークを用いて解空間上の均一分布をモデル化するクロスエントロピー法(CEM)を提案する。
我々のアルゴリズムは複雑な解空間を表現でき、様々な異なる解領域を追跡できる。
論文 参考訳(メタデータ) (2020-02-17T20:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。