論文の概要: Phasic Diversity Optimization for Population-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2403.11114v1
- Date: Sun, 17 Mar 2024 06:41:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:35:30.757319
- Title: Phasic Diversity Optimization for Population-Based Reinforcement Learning
- Title(参考訳): 人口ベース強化学習のためのファシック多様性最適化
- Authors: Jingcheng Jiang, Haiyin Piao, Yu Fu, Yihang Hao, Chuanlu Jiang, Ziqi Wei, Xin Yang,
- Abstract要約: Phasic Diversity Optimization (PDO)アルゴリズムは報酬と多様性のトレーニングを異なるフェーズに分けている。
補助的なフェーズでは、性能の悪いエージェントは、決定要因によって多様化し、アーカイブ内のより良いエージェントを置き換えることはない。
本稿では, PDOアーカイブの2つの実装を紹介し, 新たに提案した対戦型ドッグファイトと MuJoCo シミュレーションにおける実行試験について述べる。
- 参考スコア(独自算出の注目度): 10.15130620537703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reviewing the previous work of diversity Rein-forcement Learning,diversity is often obtained via an augmented loss function,which requires a balance between reward and diversity.Generally,diversity optimization algorithms use Multi-armed Bandits algorithms to select the coefficient in the pre-defined space. However, the dynamic distribution of reward signals for MABs or the conflict between quality and diversity limits the performance of these methods. We introduce the Phasic Diversity Optimization (PDO) algorithm, a Population-Based Training framework that separates reward and diversity training into distinct phases instead of optimizing a multi-objective function. In the auxiliary phase, agents with poor performance diversified via determinants will not replace the better agents in the archive. The decoupling of reward and diversity allows us to use an aggressive diversity optimization in the auxiliary phase without performance degradation. Furthermore, we construct a dogfight scenario for aerial agents to demonstrate the practicality of the PDO algorithm. We introduce two implementations of PDO archive and conduct tests in the newly proposed adversarial dogfight and MuJoCo simulations. The results show that our proposed algorithm achieves better performance than baselines.
- Abstract(参考訳): 多様性強化学習のこれまでの成果を概観すると、多様性は報酬と多様性のバランスを必要とする拡張損失関数によって得られることが多い。
しかし,MABに対する報酬信号の動的分布や品質と多様性の相違は,これらの手法の性能を制限している。
我々は,多目的関数を最適化する代わりに,報酬と多様性のトレーニングを異なるフェーズに分離する,人口ベーストレーニングフレームワークであるPhasic Diversity Optimization (PDO)アルゴリズムを導入する。
補助的なフェーズでは、性能の悪いエージェントは、決定要因によって多様化し、アーカイブ内のより良いエージェントを置き換えることはない。
報酬と多様性の分離により、性能劣化を伴わずに補助的なフェーズで積極的な多様性最適化を行うことができる。
さらに,PDOアルゴリズムの実用性を実証するために,航空エージェントのためのドッグファイトシナリオを構築した。
本稿では, PDOアーカイブの2つの実装を紹介し, 新たに提案した対戦型ドッグファイトと MuJoCo シミュレーションにおける実行試験について述べる。
その結果,提案アルゴリズムはベースラインよりも性能がよいことがわかった。
関連論文リスト
- Comparative Analysis of Indicators for Multiobjective Diversity Optimization [0.2144088660722956]
我々は,多目的の指標に基づく進化アルゴリズム(IBEA)の観点から,多様な多様性指標について論じる。
種の単調性など,これらの指標の理論的,計算的,実用的性質について検討する。
我々は、Riesz s-Energy Subset Selection ProblemのNP-hardnessの証明を含む新しい定理を提案する。
論文 参考訳(メタデータ) (2024-10-24T16:40:36Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - Knowledge Transfer for Dynamic Multi-objective Optimization with a
Changing Number of Objectives [4.490459770205671]
DMOPの目的が変化する状態遷移アルゴリズムには,十分な多様性が欠如していることが示される。
本稿では,変化後の多様性を高めるために,知識伝達動的多目的進化アルゴリズム(KTDMOEA)を提案する。
論文 参考訳(メタデータ) (2023-06-19T01:54:44Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - A Unified Algorithm Framework for Unsupervised Discovery of Skills based
on Determinantal Point Process [53.86223883060367]
教師なしオプション発見における多様性とカバレッジは、実際には同じ数学的枠組みの下で統一可能であることを示す。
提案アルゴリズムであるODPPは,MujocoとAtariで作成した課題に対して,広範囲に評価されている。
論文 参考訳(メタデータ) (2022-12-01T01:40:03Z) - DGPO: Discovering Multiple Strategies with Diversity-Guided Policy
Optimization [34.40615558867965]
与えられたタスクを解決するための複数の戦略を探索するオンラインアルゴリズムを提案する。
以前の作業とは異なり、単一の実行でトレーニングされた共有ポリシネットワークでこれを実現する。
実験結果から,本手法は多種多様な強化学習課題における多様な戦略を効果的に発見できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T15:57:55Z) - Multi-Objective Quality Diversity Optimization [2.4608515808275455]
MOME(Multi-Objective MAP-Elites)の多目的設定におけるMAP-Elitesアルゴリズムの拡張を提案する。
すなわち、MAP-Elitesグリッドアルゴリズムから受け継いだ多様性と、多目的最適化の強みを組み合わせる。
本手法は,標準的な最適化問題からロボットシミュレーションまで,いくつかのタスクで評価する。
論文 参考訳(メタデータ) (2022-02-07T10:48:28Z) - A novel multiobjective evolutionary algorithm based on decomposition and
multi-reference points strategy [14.102326122777475]
分解に基づく多目的進化アルゴリズム(MOEA/D)は、多目的最適化問題(MOP)を解く上で、極めて有望なアプローチであると考えられている。
本稿では,よく知られたPascoletti-Serafiniスキャラライゼーション法とマルチ参照ポイントの新たな戦略により,MOEA/Dアルゴリズムの改良を提案する。
論文 参考訳(メタデータ) (2021-10-27T02:07:08Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。