論文の概要: Automated Curriculum Learning for Embodied Agents: A Neuroevolutionary
Approach
- arxiv url: http://arxiv.org/abs/2102.08849v1
- Date: Wed, 17 Feb 2021 16:19:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 22:01:21.555614
- Title: Automated Curriculum Learning for Embodied Agents: A Neuroevolutionary
Approach
- Title(参考訳): 身体的エージェントの自動カリキュラム学習--神経進化的アプローチ
- Authors: Nicola Milano and Stefano Nolfi
- Abstract要約: 進化的アルゴリズムを,進化的エージェントが評価される環境条件を自動的に選択するカリキュラム学習プロセスで拡張する方法を実証する。
その結果, 提案手法が従来のアルゴリズムより優れ, 変動に頑健な解を生成することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate how an evolutionary algorithm can be extended with a
curriculum learning process that selects automatically the environmental
conditions in which the evolving agents are evaluated. The environmental
conditions are selected so to adjust the level of difficulty to the ability
level of the current evolving agents and so to challenge the weaknesses of the
evolving agents. The method does not require domain knowledge and does not
introduce additional hyperparameters. The results collected on two benchmark
problems, that require to solve a task in significantly varying environmental
conditions, demonstrate that the method proposed outperforms conventional
algorithms and generates solutions that are robust to variations
- Abstract(参考訳): 進化的アルゴリズムは,進化的エージェントが評価される環境条件を自動的に選択するカリキュラム学習プロセスによってどのように拡張できるかを示す。
環境条件は、現在の進化エージェントの能力レベルに難易度を調整し、進化エージェントの弱点に挑戦するために選択される。
このメソッドはドメインの知識を必要とせず、追加のハイパーパラメータも導入しない。
その結果,提案手法が従来のアルゴリズムよりも優れており,変動にロバストな解を生成することを実証した。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Reinforcement Learning with Options and State Representation [105.82346211739433]
この論文は、強化学習分野を探求し、改良された手法を構築することを目的としている。
階層的強化学習(Hierarchical Reinforcement Learning)として知られる階層的な方法で学習タスクを分解することで、そのような目標に対処する。
論文 参考訳(メタデータ) (2024-03-16T08:30:55Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Act as You Learn: Adaptive Decision-Making in Non-Stationary Markov
Decision Processes [5.276882857467777]
textitAdaptive Monte Carlo Tree Search (ADA-MCTS) という検索アルゴリズムを提案する。
エージェントは時間とともに環境の更新されたダイナミクスを学習し、そのエージェントが学習する時、すなわち、そのエージェントが知識が更新された状態空間の領域にいる場合、悲観的にならないことを示す。
論文 参考訳(メタデータ) (2024-01-03T17:19:54Z) - AGENT: An Adaptive Grouping Entrapping Method of Flocking Systems [4.922399029219211]
本研究では,エージェントの適応的グループ化を複数のターゲットに適応させる分散アルゴリズムを提案する。
エージェントは環境情報に基づいて、どのターゲットを囲むべきかを自分で決定する。
提案手法は,Swarmエージェントの協調が,Swarmレベルに侵入する複数のターゲットの現象を発生させることを保証する。
論文 参考訳(メタデータ) (2022-06-25T15:12:18Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Adaptability of Improved NEAT in Variable Environments [0.0]
神経進化(NeuroEvolution of Augmenting Topologies、NEAT)は、新しい遺伝的アルゴリズム(GA)である。
本稿では, NEATの改良版を可変環境に実装することにより, この課題について検討する。
すべての組み合わせで改善されているのは、リカレント接続、自動機能選択、人口増加である。
論文 参考訳(メタデータ) (2021-10-22T15:33:51Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - Learning to Switch Among Agents in a Team via 2-Layer Markov Decision
Processes [41.04897149364321]
エージェント間の制御の切り替えを学習することで、既存の強化学習エージェントを異なる自動化レベルで動作させるアルゴリズムを開発した。
最適切替ポリシーに対するアルゴリズムの完全な後悔は、学習ステップの数に比例する。
障害物回避タスクにおけるシミュレーション実験は,問題の特定の構造を利用することにより,問題に依存しないアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-11T08:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。