論文の概要: Effects of Different Optimization Formulations in Evolutionary
Reinforcement Learning on Diverse Behavior Generation
- arxiv url: http://arxiv.org/abs/2110.08122v1
- Date: Fri, 15 Oct 2021 14:41:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 17:14:11.829401
- Title: Effects of Different Optimization Formulations in Evolutionary
Reinforcement Learning on Diverse Behavior Generation
- Title(参考訳): 進化的強化学習における異なる最適化定式化の効果
- Authors: Victor Villin, Naoki Masuyama, Yusuke Nojima
- Abstract要約: 本稿では,多目的最適化を利用した既存の進化的強化学習フレームワークについて考察する。
アタリゲームの実験では、目的を考慮しない最適化の定式化は多様性を生み出すのに等しく失敗し、目の前の問題を解くのが苦手な出力エージェントさえも失敗すると強調されている。
- 参考スコア(独自算出の注目度): 2.359091475921131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating various strategies for a given task is challenging. However, it
has already proven to bring many assets to the main learning process, such as
improved behavior exploration. With the growth in the interest of heterogeneity
in solution in evolutionary computation and reinforcement learning, many
promising approaches have emerged. To better understand how one guides multiple
policies toward distinct strategies and benefit from diversity, we need to
analyze further the influence of the reward signal modulation and other
evolutionary mechanisms on the obtained behaviors. To that effect, this paper
considers an existing evolutionary reinforcement learning framework which
exploits multi-objective optimization as a way to obtain policies that succeed
at behavior-related tasks as well as completing the main goal. Experiments on
the Atari games stress that optimization formulations which do not consider
objectives equally fail at generating diversity and even output agents that are
worse at solving the problem at hand, regardless of the obtained behaviors.
- Abstract(参考訳): 与えられたタスクに対するさまざまな戦略の生成は困難です。
しかし、行動探索の改善など、主要な学習プロセスに多くの資産をもたらすことがすでに証明されている。
進化的計算と強化学習における解の不均一性の関心の高まりにより、多くの有望なアプローチが現れた。
異なる戦略に向けて複数の政策を導き、多様性の恩恵を受けるためには、報酬信号変調やその他の進化メカニズムが得られる行動に与える影響をさらに分析する必要がある。
そこで本研究では,多目的最適化を利用した既存の進化的強化学習フレームワークについて,行動関連タスクの成功と目標達成の方法として考察する。
アタリゲームの実験では、目的を考慮しない最適化の定式化は多様性を生み出すのに等しく失敗し、得られる振る舞いに関わらず、問題の解決に苦しむ出力エージェントさえも失敗する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning [7.889696505137217]
強化学習の解釈可能性を高めるために,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。
トレーニング中に学習した最適な振る舞いに基づくRLモデルの一般的な実践とは対照的に、エッジケースの軌跡の範囲を考慮すると、それらの固有の振る舞いをより包括的に理解することができると仮定する。
本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-04-04T10:56:30Z) - DGPO: Discovering Multiple Strategies with Diversity-Guided Policy
Optimization [34.40615558867965]
与えられたタスクを解決するための複数の戦略を探索するオンラインアルゴリズムを提案する。
以前の作業とは異なり、単一の実行でトレーニングされた共有ポリシネットワークでこれを実現する。
実験結果から,本手法は多種多様な強化学習課題における多様な戦略を効果的に発見できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T15:57:55Z) - Influencing Long-Term Behavior in Multiagent Reinforcement Learning [59.98329270954098]
時間的アプローチが無限に近づくと、他のエージェントの制限ポリシーを考えるための原則的枠組みを提案する。
具体的には、各エージェントの行動が他のエージェントが行うポリシーの制限セットに与える影響を直接考慮し、各エージェントの平均報酬を最大化する新しい最適化目標を開発する。
我々の遠視評価により、様々な領域における最先端のベースラインよりも長期的性能が向上した。
論文 参考訳(メタデータ) (2022-03-07T17:32:35Z) - Behavior-based Neuroevolutionary Training in Reinforcement Learning [3.686320043830301]
本稿では,神経進化的最適化と価値に基づく強化学習を組み合わせたハイブリッドアルゴリズムを提案する。
この目的のために,エージェントポリシーの生成と最適化のための異なる手法を統合し,多様な集団を創出する。
その結果, 進化的手法のサンプル効率と学習速度を向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-17T15:40:42Z) - Behaviorally Diverse Traffic Simulation via Reinforcement Learning [16.99423598448411]
本稿では,自律運転エージェントのための簡易なポリシー生成アルゴリズムを提案する。
提案アルゴリズムは,深層強化学習の表現能力と探索能力を活用することで,多様性と運転能力のバランスをとる。
本手法の有効性を,いくつかの挑戦的な交差点シーンにおいて実験的に示す。
論文 参考訳(メタデータ) (2020-11-11T12:49:11Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Adaptive strategy in differential evolution via explicit exploitation
and exploration controls [0.0]
本稿では,明示的適応スキーム (Ea scheme) という新しい戦略適応手法を提案する。
Eaスキームは複数の戦略を分離し、それらをオンデマンドで採用する。
ベンチマーク関数に関する実験的研究は、Eaスキームの有効性を示す。
論文 参考訳(メタデータ) (2020-02-03T09:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。