論文の概要: L2Explorer: A Lifelong Reinforcement Learning Assessment Environment
- arxiv url: http://arxiv.org/abs/2203.07454v1
- Date: Mon, 14 Mar 2022 19:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 13:11:38.412688
- Title: L2Explorer: A Lifelong Reinforcement Learning Assessment Environment
- Title(参考訳): L2Explorer: 生涯強化学習評価環境
- Authors: Erik C. Johnson, Eric Q. Nguyen, Blake Schreurs, Chigozie S. Ewulum,
Chace Ashcraft, Neil M. Fendley, Megan M. Baker, Alexander New, Gautam K.
Vallabha
- Abstract要約: 強化学習ソリューションは、トレーニングされたデータ配布以外の新しいタスクに晒されると、あまり一般化しない傾向があります。
生涯学習エクスプローラー(L2Explorer)を用いた継続的強化学習開発と評価のための枠組みを導入する。
L2Explorerは新しいUnityベースのファーストパーソンな3D探索環境で、複雑な評価カリキュラムに構造化されたタスクやタスクのバリエーションを生成するために継続的に再構成することができる。
- 参考スコア(独自算出の注目度): 49.40779372040652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite groundbreaking progress in reinforcement learning for robotics,
gameplay, and other complex domains, major challenges remain in applying
reinforcement learning to the evolving, open-world problems often found in
critical application spaces. Reinforcement learning solutions tend to
generalize poorly when exposed to new tasks outside of the data distribution
they are trained on, prompting an interest in continual learning algorithms. In
tandem with research on continual learning algorithms, there is a need for
challenge environments, carefully designed experiments, and metrics to assess
research progress. We address the latter need by introducing a framework for
continual reinforcement-learning development and assessment using Lifelong
Learning Explorer (L2Explorer), a new, Unity-based, first-person 3D exploration
environment that can be continuously reconfigured to generate a range of tasks
and task variants structured into complex and evolving evaluation curricula. In
contrast to procedurally generated worlds with randomized components, we have
developed a systematic approach to defining curricula in response to controlled
changes with accompanying metrics to assess transfer, performance recovery, and
data efficiency. Taken together, the L2Explorer environment and evaluation
approach provides a framework for developing future evaluation methodologies in
open-world settings and rigorously evaluating approaches to lifelong learning.
- Abstract(参考訳): ロボット工学、ゲームプレイ、その他の複雑な分野における強化学習の進歩は画期的なものだが、重要な応用分野においてしばしば見られる発展的かつオープンな問題に強化学習を適用することには大きな課題が残っている。
強化学習ソリューションは、トレーニングされているデータ配布以外の新しいタスクに晒されると、一般化が悪くなり、継続的な学習アルゴリズムへの関心が高まる。
継続的な学習アルゴリズムの研究と相まって、研究の進捗を評価するためにチャレンジ環境、注意深く設計された実験、メトリクスが必要である。
後者の必要性に対処するため,Lifelong Learning Explorer (L2Explorer) を用いた連続的な強化学習開発と評価のためのフレームワークを導入する。
ランダム成分を持つ手続き的に生成された世界とは対照的に,移動,性能回復,データ効率を評価するための指標を伴い,制御された変化に対応して曲率を定義する体系的アプローチを開発した。
L2Explorer環境と評価アプローチは、オープンワールド環境での今後の評価方法論の開発と、生涯学習へのアプローチを厳格に評価するためのフレームワークを提供する。
関連論文リスト
- Robust Monocular Visual Odometry using Curriculum Learning [1.282543877006303]
本研究は,モノクロビジュアルオドメトリー(VO)推定の難解な幾何学的問題に対処するために,革新的なカリキュラム学習(CL)手法を適用した。
我々は、新しいCLアプローチを統合することにより、エンドツーエンドのDeep-Patch-Visual Odometryフレームワークを強化する。
論文 参考訳(メタデータ) (2024-11-20T16:26:51Z) - Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Approximate Unlearning Completeness [30.596695293390415]
本稿では, ライフサイクル・アンラーニング・コミットメント・マネジメント(LUCM)の課題について紹介する。
サンプルレベルの未学習完全性を評価するための効率的な指標を提案する。
このメトリクスは、未学習ライフサイクル全体を通して、未学習の異常を監視するツールとして機能することを示す。
論文 参考訳(メタデータ) (2024-03-19T15:37:27Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - System Design for an Integrated Lifelong Reinforcement Learning Agent
for Real-Time Strategy Games [34.3277278308442]
継続/寿命学習(LL)は、新しいタスクを学習するモデルの能力を最大化しながら、古いタスクの忘れを最小限にする。
本稿では、L2RLシステムを標準化し、異なる連続学習コンポーネントを同化するLifelong Reinforcement Learning Components Framework (L2RLCF)を紹介する。
本稿では,複数の独立開発LLコンポーネントが単一システムに統合可能であることを示すケーススタディについて述べる。
論文 参考訳(メタデータ) (2022-12-08T23:32:57Z) - Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。
内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文 参考訳(メタデータ) (2022-06-09T05:19:32Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文 参考訳(メタデータ) (2020-03-10T20:41:24Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。