論文の概要: Instance Weighted Incremental Evolution Strategies for Reinforcement
Learning in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2010.04605v2
- Date: Thu, 31 Mar 2022 08:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 03:54:50.283123
- Title: Instance Weighted Incremental Evolution Strategies for Reinforcement
Learning in Dynamic Environments
- Title(参考訳): 動的環境における強化学習のためのインスタンス重み付けインクリメンタル進化戦略
- Authors: Zhi Wang and Chunlin Chen and Daoyi Dong
- Abstract要約: 本研究では,動的環境における進化戦略(ES)の体系的漸進学習手法を提案する。
目標は、環境が変わるたびに、学習済みのポリシーを新しいポリシーに漸進的に調整することだ。
本稿では、動的環境への高速な学習適応を実現するため、RLドメインのためのスケーラブルなESアルゴリズムのファミリーを紹介する。
- 参考スコア(独自算出の注目度): 11.076005074172516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolution strategies (ES), as a family of black-box optimization algorithms,
recently emerge as a scalable alternative to reinforcement learning (RL)
approaches such as Q-learning or policy gradient, and are much faster when many
central processing units (CPUs) are available due to better parallelization. In
this paper, we propose a systematic incremental learning method for ES in
dynamic environments. The goal is to adjust previously learned policy to a new
one incrementally whenever the environment changes. We incorporate an instance
weighting mechanism with ES to facilitate its learning adaptation, while
retaining scalability of ES. During parameter updating, higher weights are
assigned to instances that contain more new knowledge, thus encouraging the
search distribution to move towards new promising areas of parameter space. We
propose two easy-to-implement metrics to calculate the weights: instance
novelty and instance quality. Instance novelty measures an instance's
difference from the previous optimum in the original environment, while
instance quality corresponds to how well an instance performs in the new
environment. The resulting algorithm, Instance Weighted Incremental Evolution
Strategies (IW-IES), is verified to achieve significantly improved performance
on challenging RL tasks ranging from robot navigation to locomotion. This paper
thus introduces a family of scalable ES algorithms for RL domains that enables
rapid learning adaptation to dynamic environments.
- Abstract(参考訳): 進化戦略(ES)は,最近,Qラーニングやポリシグラデーションといった強化学習(RL)アプローチに代わるスケーラブルな代替手段として登場し,多くの中央処理ユニット(CPU)が並列化の改善のために利用可能になった場合,はるかに高速である。
本稿では,動的環境におけるESの体系的漸進学習手法を提案する。
目標は、環境が変わるたびに、学習済みのポリシーをインクリメンタルに新しいポリシーに調整することだ。
我々は、ESのスケーラビリティを維持しながら、ESの学習適応を容易にするためにインスタンス重み付け機構を組み込んだ。
パラメータ更新の間、より新しい知識を含むインスタンスに高重みが割り当てられるため、探索分布はパラメータ空間の新しい有望領域に移動する。
重みを計算するために,2つの簡単な実装指標を提案する。
インスタンスの新規性は、元の環境での以前の最適化とインスタンスの差異を計測しますが、インスタンスの品質は新しい環境でのインスタンスのパフォーマンスに相当します。
得られたアルゴリズムであるインスタンス重み付きインクリメンタル進化戦略(IW-IES)を検証し,ロボットナビゲーションから移動に至るまでの課題RLタスクにおいて,大幅な性能向上を実現する。
本稿では、動的環境への高速な学習適応を実現するため、RLドメインのためのスケーラブルなESアルゴリズムのファミリーを紹介する。
関連論文リスト
- Edge Caching Optimization with PPO and Transfer Learning for Dynamic Environments [3.720975664058743]
動的環境においては、コンテンツの人気の変化や要求率の変化が頻繁に発生し、事前学習されたポリシーが以前の条件に最適化されているため、効果が低下する。
我々は,コンテンツの人気と要求率の変化を検知し,キャッシュ戦略のタイムリーな調整を確保する機構を開発する。
また,事前知識を活用して,新しい環境における収束を加速する伝達学習に基づくPPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T21:01:29Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
従来の手法では、固定パラメータ空間に依存する静的適応を広く採用し、逐次到着するデータから学習する。
本稿では、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整する2つの選択型SSMプロジェクタを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - An advantage based policy transfer algorithm for reinforcement learning
with metrics of transferability [6.660458629649826]
強化学習(Reinforcement Learning, RL)は, 複雑・高次元環境における逐次的意思決定を可能にする。
トランスファーRLアルゴリズムは、1つまたは複数のソース環境からターゲット環境への知識の転送に使用できる。
本稿では、固定されたドメイン環境に対する非政治アドバンテージベースのポリシー転送アルゴリズムであるAPT-RLを提案する。
論文 参考訳(メタデータ) (2023-11-12T04:25:53Z) - Few-shot Quality-Diversity Optimization [50.337225556491774]
品質多様性(QD)の最適化は、強化学習における知覚的最小値とスパース報酬を扱う上で効果的なツールであることが示されている。
本稿では,タスク分布の例から,パラメータ空間の最適化によって得られる経路の情報を利用して,未知の環境でQD手法を初期化する場合,数発の適応が可能であることを示す。
ロボット操作とナビゲーションベンチマークを用いて、疎密な報酬設定と密集した報酬設定の両方で実施された実験は、これらの環境でのQD最適化に必要な世代数を著しく削減することを示している。
論文 参考訳(メタデータ) (2021-09-14T17:12:20Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Lifelong Incremental Reinforcement Learning with Online Bayesian
Inference [11.076005074172516]
長期にわたる強化学習エージェントは、環境の変化に応じて、その振る舞いを漸進的に適応させることである。
動的環境への効率的な生涯適応のための新しいインクリメンタルアルゴリズムであるLifeLong Reinforcement Learning (LLIRL)を提案する。
論文 参考訳(メタデータ) (2020-07-28T13:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。