論文の概要: Eden: A Unified Environment Framework for Booming Reinforcement Learning
Algorithms
- arxiv url: http://arxiv.org/abs/2109.01768v1
- Date: Sat, 4 Sep 2021 02:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:56:42.625009
- Title: Eden: A Unified Environment Framework for Booming Reinforcement Learning
Algorithms
- Title(参考訳): Eden: 強化学習アルゴリズムをブーイングするための統一環境フレームワーク
- Authors: Ruizhi Chen, Xiaoyu Wu, Yansong Pan, Kaizhao Yuan, Ling Li, TianYun
Ma, JiYuan Liang, Rui Zhang, Kai Wang, Chen Zhang, Shaohui Peng, Xishan
Zhang, Zidong Du, Qi Guo, Yunji Chen
- Abstract要約: 強化学習アルゴリズムは、より強力な人工知能(AI)を構築するためのコードベースになりつつある
既存の環境は、現実世界のゲームとカスタマイズされたおもちゃ環境に分けられるが、明らかな欠点がある。
RLのための最初の仮想ユーザフレンドリーな環境フレームワークを紹介する。
- 参考スコア(独自算出の注目度): 19.62620266334838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With AlphaGo defeats top human players, reinforcement learning(RL) algorithms
have gradually become the code-base of building stronger artificial
intelligence(AI). The RL algorithm design firstly needs to adapt to the
specific environment, so the designed environment guides the rapid and profound
development of RL algorithms. However, the existing environments, which can be
divided into real world games and customized toy environments, have obvious
shortcomings. For real world games, it is designed for human entertainment, and
too much difficult for most of RL researchers. For customized toy environments,
there is no widely accepted unified evaluation standard for all RL algorithms.
Therefore, we introduce the first virtual user-friendly environment framework
for RL. In this framework, the environment can be easily configured to realize
all kinds of RL tasks in the mainstream research. Then all the mainstream
state-of-the-art(SOTA) RL algorithms can be conveniently evaluated and
compared. Therefore, our contributions mainly includes the following aspects:
1.single configured environment for all classification of SOTA RL algorithms;
2.combined environment of more than one classification RL algorithms; 3.the
evaluation standard for all kinds of RL algorithms. With all these efforts, a
possibility for breeding an AI with capability of general competency in a
variety of tasks is provided, and maybe it will open up a new chapter for AI.
- Abstract(参考訳): AlphaGoがトップの人間プレイヤーを倒すにつれ、強化学習(RL)アルゴリズムは徐々に強力な人工知能(AI)を構築するためのコードベースになりつつある。
RLアルゴリズムの設計は、まず特定の環境に適応する必要があるため、設計された環境はRLアルゴリズムの迅速かつ深い開発を導く。
しかし、既存の環境は現実世界のゲームとカスタマイズされたおもちゃ環境に分けられ、明らかに欠点がある。
現実世界のゲームでは、人間のエンターテイメントのために設計されており、ほとんどのRL研究者にとって難しすぎる。
カスタマイズされた玩具環境では、RLアルゴリズムの統一評価基準は広く受け入れられていない。
そこで,本研究では,初のrl用仮想ユーザフレンドリ環境フレームワークを提案する。
本フレームワークでは, 主流研究におけるRLタスクのすべてを実現する環境を, 容易に設定できる。
そして、すべての主流の最先端rlアルゴリズムを便利に評価し比較することができる。
したがって、本研究は、SOTA RLアルゴリズムの全ての分類のための構成環境と、複数の分類RLアルゴリズムの組込み環境と、あらゆる種類のRLアルゴリズムの評価基準とを主に含んでいる。
これらすべての努力により、さまざまなタスクにおいて一般的な能力を持つAIを育成する可能性が提供され、おそらくAIの新しい章が開かれるだろう。
関連論文リスト
- Gymnasium: A Standard Interface for Reinforcement Learning Environments [5.7144222327514616]
強化学習(Reinforcement Learning、RL)は、人工知能の多くの領域に革命をもたらす可能性がある成長分野である。
その約束にもかかわらず、RLの研究は環境やアルゴリズムの実装における標準化の欠如によってしばしば妨げられている。
Gymnasiumはオープンソースのライブラリで、RL環境の標準APIを提供する。
論文 参考訳(メタデータ) (2024-07-24T06:35:05Z) - A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - Discovering General Reinforcement Learning Algorithms with Adversarial
Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。
Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。
本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-10-04T12:52:56Z) - GUARD: A Safe Reinforcement Learning Benchmark [11.887626936994883]
一般化SAfe強化学習開発ベンチマーク
GUARDは、さまざまなRLエージェント、タスク、安全制約仕様を備えた一般化されたベンチマークである。
本稿では,GUARDを用いた各種タスク設定における最先端安全RLアルゴリズムの比較を行い,今後の作業が構築できるベースラインを確立する。
論文 参考訳(メタデータ) (2023-05-23T04:40:29Z) - Design Process is a Reinforcement Learning Problem [0.0]
設計プロセスは強化学習の問題であり、RLアルゴリズムの適切な応用になり得ると我々は主張する。
これはRLメソッドを使用する機会を生み出し、同時に課題を提起する。
論文 参考訳(メタデータ) (2022-11-06T14:37:22Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z) - Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。
我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文 参考訳(メタデータ) (2022-01-11T12:41:43Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。