論文の概要: Effective Diversity in Population Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.00632v3
- Date: Wed, 7 Oct 2020 16:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 08:22:18.051084
- Title: Effective Diversity in Population Based Reinforcement Learning
- Title(参考訳): 人口ベース強化学習における効果的な多様性
- Authors: Jack Parker-Holder and Aldo Pacchiano and Krzysztof Choromanski and
Stephen Roberts
- Abstract要約: 人口のすべてのメンバを同時に最適化するアプローチを導入する。
対距離を使用するのではなく、行動多様体内の全集団の体積を測定する。
我々のアルゴリズムは、オンライン学習技術を用いて、トレーニング中に多様性の度合いを適応させる。
- 参考スコア(独自算出の注目度): 38.62641968788987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is a key problem in reinforcement learning, since agents can only
learn from data they acquire in the environment. With that in mind, maintaining
a population of agents is an attractive method, as it allows data be collected
with a diverse set of behaviors. This behavioral diversity is often boosted via
multi-objective loss functions. However, those approaches typically leverage
mean field updates based on pairwise distances, which makes them susceptible to
cycling behaviors and increased redundancy. In addition, explicitly boosting
diversity often has a detrimental impact on optimizing already fruitful
behaviors for rewards. As such, the reward-diversity trade off typically relies
on heuristics. Finally, such methods require behavioral representations, often
handcrafted and domain specific. In this paper, we introduce an approach to
optimize all members of a population simultaneously. Rather than using pairwise
distance, we measure the volume of the entire population in a behavioral
manifold, defined by task-agnostic behavioral embeddings. In addition, our
algorithm Diversity via Determinants (DvD), adapts the degree of diversity
during training using online learning techniques. We introduce both
evolutionary and gradient-based instantiations of DvD and show they effectively
improve exploration without reducing performance when better exploration is not
required.
- Abstract(参考訳): エージェントは、環境の中で取得したデータからのみ学習できるため、強化学習において探索は重要な問題である。
エージェントの集団を維持することは魅力的な方法であり、多様な行動でデータを収集することができる。
この挙動の多様性は多目的損失関数によってしばしば促進される。
しかし、これらのアプローチは通常、ペア距離に基づく平均的フィールド更新を利用するため、サイクリングの振る舞いや冗長性の増加に影響を受けやすい。
さらに、明確に多様性を高めることは、しばしば報酬のために既に実りある行動の最適化に有害な影響を与える。
そのため、報酬と多様性のトレードオフは通常ヒューリスティックスに依存している。
最後に、そのような方法は、しばしば手作りでドメイン固有の振る舞い表現を必要とする。
本稿では,集団のすべての構成員を同時に最適化する手法を提案する。
ペアワイズ距離を用いるのではなく、タスク非依存な行動埋め込みによって定義される行動多様体内の集団全体の体積を測定する。
さらに、決定要因(dvd)によるアルゴリズムの多様性は、オンライン学習技術を用いてトレーニング中の多様性の度合いに適応する。
我々はDvDの進化的および勾配的インスタンス化の両方を導入し、より良い探索が不要な場合に性能を低下させることなく探索を効果的に改善することを示す。
関連論文リスト
- DIDI: Diffusion-Guided Diversity for Offline Behavioral Generation [25.904918670006587]
オフライン動作生成のための拡散誘導ダイバーシティ(DIDI)と呼ばれる新しい手法を提案する。
DIDIの目標は、ラベルなしオフラインデータの混合から多様なスキルセットを学ぶことである。
論文 参考訳(メタデータ) (2024-05-23T17:00:15Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Diversity from Human Feedback [39.05609489642456]
本稿では,人間のフィードバックから行動空間を学習する問題を提案し,その解法として人間フィードバックからの多様性(Diversity from Human Feedback, DivHF)を提案する。
DivHFは、人間のフィードバックをクエリすることで、人間の好みと整合した振る舞いを学習する。
本研究では,DivHF を品質多様性最適化アルゴリズム MAP-Elites に統合し,QDax スイート上で実験を行うことにより,DivHF の有効性を示す。
論文 参考訳(メタデータ) (2023-10-10T14:13:59Z) - Generalizable Low-Resource Activity Recognition with Diverse and
Discriminative Representation Learning [24.36351102003414]
HAR(Human Activity Recognition)は、人間のセンサーの読み取りから動作パターンを特定することに焦点を当てた時系列分類タスクである。
一般化可能な低リソースHARのためのDDLearn(Diverse and Discriminative Expression Learning)という新しい手法を提案する。
平均精度は9.5%向上した。
論文 参考訳(メタデータ) (2023-05-25T08:24:22Z) - System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning [8.280943341629161]
マルチエージェントシステムにおける振る舞いの不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。
SNDはエージェントが取得した潜時レジリエンスのスキルを計測できるが、タスクパフォーマンス(リワード)などの他のプロキシは失敗する。
我々は、このパラダイムが探索フェーズのブートストラップにどのように使用できるかを示し、最適なポリシーを高速に見つける。
論文 参考訳(メタデータ) (2023-05-03T13:58:13Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - Diversity Through Exclusion (DTE): Niche Identification for
Reinforcement Learning through Value-Decomposition [63.67574523750839]
本稿では,多変量ニッチ環境におけるベースライン深度Q-ラーニングアルゴリズムよりも優れた汎用強化学習(RL)アルゴリズムを提案する。
この方法で訓練されたエージェントは、貧弱だが魅力ある局所最適化から逃れて、より高い価値戦略の発見を困難にすることを示します。
論文 参考訳(メタデータ) (2023-02-02T16:00:19Z) - Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。
多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。
本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-06T09:20:59Z) - Quantifying environment and population diversity in multi-agent
reinforcement learning [7.548322030720646]
一般化は多エージェント強化学習の大きな課題である。
本稿では,マルチエージェント領域における一般化と多様性の関係を定量的に検討する。
共同演奏者の変動が与える影響をよりよく理解するために,実験では,行動の多様性の環境によらない新しい尺度を導入する。
論文 参考訳(メタデータ) (2021-02-16T18:54:39Z) - DICE: Diversity in Deep Ensembles via Conditional Redundancy Adversarial
Estimation [109.11580756757611]
メンバー間の多様性のおかげで、ディープアンサンブルは単一のネットワークよりもパフォーマンスが良い。
最近のアプローチでは、多様性を高めるための予測を規則化していますが、個々のメンバーのパフォーマンスも大幅に減少します。
DICEと呼ばれる新しいトレーニング基準を導入し、特徴間の素早い相関を減らして多様性を高める。
論文 参考訳(メタデータ) (2021-01-14T10:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。