論文の概要: Robust Reinforcement Learning via Genetic Curriculum
- arxiv url: http://arxiv.org/abs/2202.08393v1
- Date: Thu, 17 Feb 2022 01:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-19 05:06:18.309854
- Title: Robust Reinforcement Learning via Genetic Curriculum
- Title(参考訳): 遺伝的カリキュラムによるロバスト強化学習
- Authors: Yeeho Song, Jeff Schneider
- Abstract要約: 遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
- 参考スコア(独自算出の注目度): 5.421464476555662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving robust performance is crucial when applying deep reinforcement
learning (RL) in safety critical systems. Some of the state of the art
approaches try to address the problem with adversarial agents, but these agents
often require expert supervision to fine tune and prevent the adversary from
becoming too challenging to the trainee agent. While other approaches involve
automatically adjusting environment setups during training, they have been
limited to simple environments where low-dimensional encodings can be used.
Inspired by these approaches, we propose genetic curriculum, an algorithm that
automatically identifies scenarios in which the agent currently fails and
generates an associated curriculum to help the agent learn to solve the
scenarios and acquire more robust behaviors. As a non-parametric optimizer, our
approach uses a raw, non-fixed encoding of scenarios, reducing the need for
expert supervision and allowing our algorithm to adapt to the changing
performance of the agent. Our empirical studies show improvement in robustness
over the existing state of the art algorithms, providing training curricula
that result in agents being 2 - 8x times less likely to fail without
sacrificing cumulative reward. We include an ablation study and share insights
on why our algorithm outperforms prior approaches.
- Abstract(参考訳): 安全クリティカルシステムに深部強化学習(RL)を適用する場合、堅牢な性能を達成することが重要である。
芸術的アプローチのいくつかは、敵エージェントの問題に対処しようとするが、これらのエージェントは、しばしば専門家の監督を必要とし、敵エージェントが訓練者エージェントにとって難しすぎることを防ぐ。
他のアプローチではトレーニング中に環境設定を自動的に調整するが、低次元エンコーディングが使用可能な単純な環境に限定されている。
これらのアプローチに触発されて,エージェントが現在失敗しているシナリオを自動的に識別し,関連するカリキュラムを生成して,エージェントがシナリオを解決し,より堅牢な行動を得るための遺伝的カリキュラムを提案する。
非パラメトリックオプティマイザとして、シナリオの生の非固定エンコーディングを使用し、専門家の監督の必要性を低減し、アルゴリズムがエージェントのパフォーマンスの変化に適応できるようにします。
実験の結果,既存のアルゴリズムに対するロバスト性が向上し,積算報酬を犠牲にすることなく,エージェントの2~8倍の失敗率を低下させるトレーニングカリキュラムが得られた。
我々はアブレーション研究を行い、アルゴリズムがなぜ以前のアプローチを上回っているかについての知見を共有する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge [25.168236693829783]
現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:40:10Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Detection of Insider Attacks in Distributed Projected Subgradient
Algorithms [11.096339082411882]
汎用ニューラルネットワークは悪質なエージェントの検出とローカライズに特に適していることを示す。
本稿では,連合学習における最先端のアプローチ,すなわち協調型ピアツーピア機械学習プロトコルを採用することを提案する。
シミュレーションでは,AIに基づく手法の有効性と有効性を検証するために,最小二乗問題を考える。
論文 参考訳(メタデータ) (2021-01-18T08:01:06Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Learning to Switch Among Agents in a Team via 2-Layer Markov Decision
Processes [41.04897149364321]
エージェント間の制御の切り替えを学習することで、既存の強化学習エージェントを異なる自動化レベルで動作させるアルゴリズムを開発した。
最適切替ポリシーに対するアルゴリズムの完全な後悔は、学習ステップの数に比例する。
障害物回避タスクにおけるシミュレーション実験は,問題の特定の構造を利用することにより,問題に依存しないアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-11T08:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。