論文の概要: Effects of Different Optimization Formulations in Evolutionary
Reinforcement Learning on Diverse Behavior Generation
- arxiv url: http://arxiv.org/abs/2110.08122v1
- Date: Fri, 15 Oct 2021 14:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 17:14:11.829401
- Title: Effects of Different Optimization Formulations in Evolutionary
Reinforcement Learning on Diverse Behavior Generation
- Title(参考訳): 進化的強化学習における異なる最適化定式化の効果
- Authors: Victor Villin, Naoki Masuyama, Yusuke Nojima
- Abstract要約: 本稿では,多目的最適化を利用した既存の進化的強化学習フレームワークについて考察する。
アタリゲームの実験では、目的を考慮しない最適化の定式化は多様性を生み出すのに等しく失敗し、目の前の問題を解くのが苦手な出力エージェントさえも失敗すると強調されている。
- 参考スコア(独自算出の注目度): 2.359091475921131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating various strategies for a given task is challenging. However, it
has already proven to bring many assets to the main learning process, such as
improved behavior exploration. With the growth in the interest of heterogeneity
in solution in evolutionary computation and reinforcement learning, many
promising approaches have emerged. To better understand how one guides multiple
policies toward distinct strategies and benefit from diversity, we need to
analyze further the influence of the reward signal modulation and other
evolutionary mechanisms on the obtained behaviors. To that effect, this paper
considers an existing evolutionary reinforcement learning framework which
exploits multi-objective optimization as a way to obtain policies that succeed
at behavior-related tasks as well as completing the main goal. Experiments on
the Atari games stress that optimization formulations which do not consider
objectives equally fail at generating diversity and even output agents that are
worse at solving the problem at hand, regardless of the obtained behaviors.
- Abstract(参考訳): 与えられたタスクに対するさまざまな戦略の生成は困難です。
しかし、行動探索の改善など、主要な学習プロセスに多くの資産をもたらすことがすでに証明されている。
進化的計算と強化学習における解の不均一性の関心の高まりにより、多くの有望なアプローチが現れた。
異なる戦略に向けて複数の政策を導き、多様性の恩恵を受けるためには、報酬信号変調やその他の進化メカニズムが得られる行動に与える影響をさらに分析する必要がある。
そこで本研究では,多目的最適化を利用した既存の進化的強化学習フレームワークについて,行動関連タスクの成功と目標達成の方法として考察する。
アタリゲームの実験では、目的を考慮しない最適化の定式化は多様性を生み出すのに等しく失敗し、得られる振る舞いに関わらず、問題の解決に苦しむ出力エージェントさえも失敗する。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - DGPO: Discovering Multiple Strategies with Diversity-Guided Policy
Optimization [34.40615558867965]
与えられたタスクを解決するための複数の戦略を探索するオンラインアルゴリズムを提案する。
以前の作業とは異なり、単一の実行でトレーニングされた共有ポリシネットワークでこれを実現する。
実験結果から,本手法は多種多様な強化学習課題における多様な戦略を効果的に発見できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T15:57:55Z) - Qualitative Differences Between Evolutionary Strategies and
Reinforcement Learning Methods for Control of Autonomous Agents [0.0]
我々は,OpenAI-ES進化戦略とPPO強化学習アルゴリズムという,最先端の2つのアルゴリズムに注目した。
i) 一般的な有効性, (ii) スパース報酬に対処する能力, (iii) 最小解の正当性/能力, (iv) 報酬形成への依存, (v) 環境条件の変動に対処する能力。
論文 参考訳(メタデータ) (2022-05-16T11:51:36Z) - Influencing Long-Term Behavior in Multiagent Reinforcement Learning [59.98329270954098]
時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。
具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。
我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
論文 参考訳(メタデータ) (2022-03-07T17:32:35Z) - Behavior-based Neuroevolutionary Training in Reinforcement Learning [3.686320043830301]
本稿では,神経進化的最適化と価値に基づく強化学習を組み合わせたハイブリッドアルゴリズムを提案する。
この目的のために,エージェントポリシーの生成と最適化のための異なる手法を統合し,多様な集団を創出する。
その結果, 進化的手法のサンプル効率と学習速度を向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-17T15:40:42Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Emergent Hand Morphology and Control from Optimizing Robust Grasps of
Diverse Objects [63.89096733478149]
多様な物体をつかむために、効果的なハンドデザインが自然に現れるデータ駆動型アプローチを紹介します。
形態と把持スキルを共同で効率的に設計するベイズ最適化アルゴリズムを開発した。
我々は,新しい物体をつかむための堅牢で費用効率のよい手形態を発見するためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-22T17:52:29Z) - Behaviorally Diverse Traffic Simulation via Reinforcement Learning [16.99423598448411]
本稿では,自律運転エージェントのための簡易なポリシー生成アルゴリズムを提案する。
提案アルゴリズムは,深層強化学習の表現能力と探索能力を活用することで,多様性と運転能力のバランスをとる。
本手法の有効性を,いくつかの挑戦的な交差点シーンにおいて実験的に示す。
論文 参考訳(メタデータ) (2020-11-11T12:49:11Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Adaptive strategy in differential evolution via explicit exploitation
and exploration controls [0.0]
本稿では,明示的適応スキーム (Ea scheme) という新しい戦略適応手法を提案する。
Eaスキームは複数の戦略を分離し、それらをオンデマンドで採用する。
ベンチマーク関数に関する実験的研究は、Eaスキームの有効性を示す。
論文 参考訳(メタデータ) (2020-02-03T09:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。