論文の概要: CORA: Benchmarks, Baselines, and Metrics as a Platform for Continual
Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2110.10067v1
- Date: Tue, 19 Oct 2021 15:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:12:43.913502
- Title: CORA: Benchmarks, Baselines, and Metrics as a Platform for Continual
Reinforcement Learning Agents
- Title(参考訳): CORA:継続的強化学習エージェントのプラットフォームとしてのベンチマーク、ベースライン、メトリクス
- Authors: Sam Powers, Eliot Xing, Eric Kolve, Roozbeh Mottaghi, Abhinav Gupta
- Abstract要約: 私たちは、ベンチマーク、ベースライン、メトリクスを単一のコードパッケージで提供する継続的強化学習エージェントのためのプラットフォームであるCORAを紹介します。
私たちが提供しているベンチマークは、破滅的な忘れなど、連続的なRL課題のさまざまな側面を評価するように設計されています。
CORAには、研究者が使用および拡張するための既存のアルゴリズムの、パフォーマンスの高いオープンソースのベースラインが含まれている。
- 参考スコア(独自算出の注目度): 36.95835768384028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Progress in continual reinforcement learning has been limited due to several
barriers to entry: missing code, high compute requirements, and a lack of
suitable benchmarks. In this work, we present CORA, a platform for Continual
Reinforcement Learning Agents that provides benchmarks, baselines, and metrics
in a single code package. The benchmarks we provide are designed to evaluate
different aspects of the continual RL challenge, such as catastrophic
forgetting, plasticity, ability to generalize, and sample-efficient learning.
Three of the benchmarks utilize video game environments (Atari, Procgen,
NetHack). The fourth benchmark, CHORES, consists of four different task
sequences in a visually realistic home simulator, drawn from a diverse set of
task and scene parameters. To compare continual RL methods on these benchmarks,
we prepare three metrics in CORA: continual evaluation, forgetting, and
zero-shot forward transfer. Finally, CORA includes a set of performant,
open-source baselines of existing algorithms for researchers to use and expand
on. We release CORA and hope that the continual RL community can benefit from
our contributions, to accelerate the development of new continual RL
algorithms.
- Abstract(参考訳): コード不足、高い計算要求、適切なベンチマークの欠如など、いくつかの障壁があるため、継続的な強化学習の進歩は制限されている。
本研究では,ベンチマーク,ベースライン,メトリクスを単一コードパッケージで提供する継続的強化学習エージェントのプラットフォームであるCORAを紹介する。
私たちが提供しているベンチマークは、破滅的な忘れ、可塑性、一般化能力、サンプル効率の学習など、連続的なRL課題のさまざまな側面を評価するように設計されています。
3つのベンチマークはビデオゲーム環境(atari、procgen、nethack)を使用している。
第4のベンチマークであるCHORESは、4つの異なるタスクシーケンスで構成されており、多様なタスクとシーンパラメータから描画される視覚的に現実的なホームシミュレータである。
これらのベンチマークで連続rl法を比較するために,連続評価,忘れ,ゼロショットフォワード転送という3つの指標をcoraで作成する。
最後に、CORAには、研究者が使用および拡張するための既存のアルゴリズムの、パフォーマンスの高いオープンソースのベースラインが含まれている。
我々はCORAをリリースし、継続RLコミュニティが我々の貢献の恩恵を受けることを期待し、新しい連続RLアルゴリズムの開発を加速する。
関連論文リスト
- ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Katakomba: Tools and Benchmarks for Data-Driven NetHack [52.0035089982277]
NetHackは強化学習研究のフロンティアとして知られている。
採用には、リソースワイド、実装ワイド、ベンチマークワイドの3つの大きな障害がある、と私たちは主張しています。
オフラインの強化学習コミュニティに慣れ親しんだワークフローの基礎を提供するオープンソースライブラリを開発した。
論文 参考訳(メタデータ) (2023-06-14T22:50:25Z) - GUARD: A Safe Reinforcement Learning Benchmark [11.887626936994883]
一般化SAfe強化学習開発ベンチマーク
GUARDは、さまざまなRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。
本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。
論文 参考訳(メタデータ) (2023-05-23T04:40:29Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning [45.52724876199729]
本稿では、文脈RL問題に拡張されたよく知られたRL環境の集合であるCARLについて述べる。
政策学習から状態の表現学習と文脈を分離することで、より一般化が促進されるという最初の証拠を提供する。
論文 参考訳(メタデータ) (2021-10-05T15:04:01Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。