論文の概要: Surrogate-Assisted Evolutionary Reinforcement Learning Based on Autoencoder and Hyperbolic Neural Network
- arxiv url: http://arxiv.org/abs/2505.19423v1
- Date: Mon, 26 May 2025 02:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.110177
- Title: Surrogate-Assisted Evolutionary Reinforcement Learning Based on Autoencoder and Hyperbolic Neural Network
- Title(参考訳): 自己エンコーダと双曲型ニューラルネットワークに基づく代理支援進化強化学習
- Authors: Bingdong Li, Mei Jiang, Hong Qian, Peng Yang, Wenjing Hong, Hong Qian, Ke Tang,
- Abstract要約: 本稿では,オートエンコーダ(AE)とハイパボリックニューラルネットワーク(HNN)を統合した新しいサロゲート支援ERLを提案する。
AEは、サロゲートの入力として重要な特徴を抽出しながら、高次元のポリシーを低次元表現に圧縮する。
10個のアタリゲームと4個のムジョコゲームによる実験により,提案手法が従来の手法よりも優れていたことが確認された。
- 参考スコア(独自算出の注目度): 18.407356789037326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolutionary Reinforcement Learning (ERL), training the Reinforcement Learning (RL) policies with Evolutionary Algorithms (EAs), have demonstrated enhanced exploration capabilities and greater robustness than using traditional policy gradient. However, ERL suffers from the high computational costs and low search efficiency, as EAs require evaluating numerous candidate policies with expensive simulations, many of which are ineffective and do not contribute meaningfully to the training. One intuitive way to reduce the ineffective evaluations is to adopt the surrogates. Unfortunately, existing ERL policies are often modeled as deep neural networks (DNNs) and thus naturally represented as high-dimensional vectors containing millions of weights, which makes the building of effective surrogates for ERL policies extremely challenging. This paper proposes a novel surrogate-assisted ERL that integrates Autoencoders (AE) and Hyperbolic Neural Networks (HNN). Specifically, AE compresses high-dimensional policies into low-dimensional representations while extracting key features as the inputs for the surrogate. HNN, functioning as a classification-based surrogate model, can learn complex nonlinear relationships from sampled data and enable more accurate pre-selection of the sampled policies without real evaluations. The experiments on 10 Atari and 4 Mujoco games have verified that the proposed method outperforms previous approaches significantly. The search trajectories guided by AE and HNN are also visually demonstrated to be more effective, in terms of both exploration and convergence. This paper not only presents the first learnable policy embedding and surrogate-modeling modules for high-dimensional ERL policies, but also empirically reveals when and why they can be successful.
- Abstract(参考訳): 進化的強化学習(Evolutionary Reinforcement Learning:ERL)は、進化的アルゴリズム(EA)を用いた強化学習(RL)政策の訓練であり、従来の政策勾配よりも探索能力と堅牢性の向上を実証している。
しかし、ERLは高い計算コストと低い探索効率に悩まされており、EAは高価なシミュレーションで多くの候補ポリシーを評価する必要がある。
非効率な評価を減らす直感的な方法の1つは、サロゲートを採用することである。
残念ながら、既存のERLポリシーはディープニューラルネットワーク(DNN)としてモデル化されることが多いため、自然に数百万の重みを含む高次元ベクトルとして表現されるため、ERLポリシーの効果的なサロゲートの構築は非常に困難である。
本稿では,オートエンコーダ(AE)とハイパボリックニューラルネットワーク(HNN)を統合した新しいサロゲート支援ERLを提案する。
具体的には、AEは、サロゲートの入力として重要な特徴を抽出しながら、高次元のポリシーを低次元表現に圧縮する。
分類に基づく代理モデルとして機能するHNNは、サンプルデータから複雑な非線形関係を学習し、実際の評価なしにより正確なサンプルポリシーの選択を可能にする。
10個のアタリゲームと4個のムジョコゲームの実験により,提案手法が従来の手法よりも優れていたことが確認された。
AEとHNNによって導かれる探索軌道もまた、探索と収束の両面でより効果的であることが視覚的に証明されている。
本稿では,高次元ERLポリシーのための最初の学習可能なポリシ埋め込みおよびサロゲートモデリングモジュールを示すだけでなく,いつ,なぜ成功するのかを実証的に明らかにする。
関連論文リスト
- Surrogate Learning in Meta-Black-Box Optimization: A Preliminary Study [23.31374095085009]
本稿では,代用学習プロセスと強化学習支援微分進化アルゴリズムを組み合わせたMetaBBOフレームワークを提案する。
Surr-RLDEは、サロゲート学習とポリシー学習の2つの学習段階から構成される。
本稿では,Surr-RLDEが最近のベースラインと競合する性能を示すだけでなく,高次元問題に対する魅力的な一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-03-23T13:07:57Z) - Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective [31.956232187102465]
本稿では,オンラインRLHFにおける不完全な報酬モデルから知識を伝達する方法を検討する。
本稿では,新しい伝達学習原理と理論的アルゴリズムを提案する。
我々は、計算効率を向上したウィンレートベースの転送ポリシー選択戦略を開発する。
論文 参考訳(メタデータ) (2025-02-26T16:03:06Z) - ADAPTER-RL: Adaptation of Any Agent using Reinforcement Learning [0.0]
アダプタは自然言語処理やコンピュータビジョンなどの教師あり学習コンテキストにおいて有効であることが証明されている。
本稿では,学習効率の向上とベースエージェントの改良を実証する,革新的な適応戦略を提案する。
提案するユニバーサルアプローチは、事前訓練されたニューラルネットワークだけでなく、ルールベースのエージェントとも互換性があり、人間の専門知識を統合する手段を提供する。
論文 参考訳(メタデータ) (2023-11-20T04:54:51Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z) - Enabling surrogate-assisted evolutionary reinforcement learning via
policy embedding [28.272572839321104]
本稿では,PE-SAERLフレームワークを提案する。
5つのアタリゲームにおける実験結果から,提案手法は4つの最先端アルゴリズムよりも効率的に動作可能であることが示された。
論文 参考訳(メタデータ) (2023-01-31T02:36:06Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。