Fugu-MT 論文翻訳(概要): CaiRL: A High-Performance Reinforcement Learning Environment Toolkit

論文の概要: CaiRL: A High-Performance Reinforcement Learning Environment Toolkit

arxiv url: http://arxiv.org/abs/2210.01235v1
Date: Mon, 3 Oct 2022 21:24:04 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 13:32:38.159391
Title: CaiRL: A High-Performance Reinforcement Learning Environment Toolkit
Title（参考訳）: CaiRL:高性能強化学習環境ツールキット
Authors: Per-Arne Andersen and Morten Goodwin and Ole-Christoffer Granmo
Abstract要約: CaiRL Environment Toolkitは、学習エージェントをトレーニングするための効率的で互換性があり、持続可能な代替手段である。古典的制御ベンチマークにおけるCaiRLの有効性を実証し,実行速度をOpenAI Gymと比較した。
参考スコア（独自算出の注目度）: 9.432068833600884
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the dire need for a platform that efficiently provides a framework for running reinforcement learning (RL) experiments. We propose the CaiRL Environment Toolkit as an efficient, compatible, and more sustainable alternative for training learning agents and propose methods to develop more efficient environment simulations. There is an increasing focus on developing sustainable artificial intelligence. However, little effort has been made to improve the efficiency of running environment simulations. The most popular development toolkit for reinforcement learning, OpenAI Gym, is built using Python, a powerful but slow programming language. We propose a toolkit written in C++ with the same flexibility level but works orders of magnitude faster to make up for Python's inefficiency. This would drastically cut climate emissions. CaiRL also presents the first reinforcement learning toolkit with a built-in JVM and Flash support for running legacy flash games for reinforcement learning research. We demonstrate the effectiveness of CaiRL in the classic control benchmark, comparing the execution speed to OpenAI Gym. Furthermore, we illustrate that CaiRL can act as a drop-in replacement for OpenAI Gym to leverage significantly faster training speeds because of the reduced environment computation time.
Abstract（参考訳）: 本稿では、強化学習(RL)実験を行うためのフレームワークを効率的に提供するプラットフォームの必要性に対処する。本研究では,cairl環境ツールキットを学習エージェントの効率的,互換性,持続的代替として提案し,より効率的な環境シミュレーション手法を提案する。持続可能な人工知能の開発に注目が集まっている。しかし,実行環境シミュレーションの効率向上にはほとんど努力が払われていない。最も人気のある強化学習用開発ツールキットであるopenai gymは、強力だが遅いプログラミング言語であるpythonを使って構築されている。同じ柔軟性レベルでC++で記述されたツールキットを提案するが、Pythonの不効率を補うために桁違いに高速に動作する。これにより、温暖化が大幅に削減される。 CaiRLはまた、強化学習研究のためのレガシフラッシュゲームを実行するための組み込みJVMとFlashサポートを備えた最初の強化学習ツールキットも提示している。古典的制御ベンチマークにおけるCaiRLの有効性を実証し,実行速度をOpenAI Gymと比較した。さらに,CaiRLをOpenAI Gymのドロップイン代替として動作させることで,環境計算時間の短縮によるトレーニング速度の大幅な向上を図っている。

関連論文リスト

ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning [47.785786984974855]
本稿では,多種多様な操作タスクに対して印象的な性能を示す,ループ内視覚に基づくRLシステムを提案する。提案手法では,実証と人間の修正,効率的なRLアルゴリズム,その他のシステムレベルの設計選択を統合してポリシを学習する。提案手法は,再現学習のベースラインと先行RLアプローチを著しく上回り,成功率の平均2倍,実行速度1.8倍に向上した。
論文参考訳（メタデータ） (2024-10-29T08:12:20Z)
Accelerating Goal-Conditioned RL Algorithms and Research [17.155006770675904]
自己指導型目標条件強化学習(GCRL)エージェントは、環境との非構造的相互作用において達成された目標から学習することで、新しい行動を発見する。これらの手法は、低速環境シミュレーションのデータ不足や安定したアルゴリズムの欠如により、同様の成功は得られていない。我々は、自制的なGCRLのためのベンチマーク(JaxGCRL)をリリースし、研究者は単一のGPU上で数百万の環境ステップでエージェントを訓練することができる。
論文参考訳（メタデータ） (2024-08-20T17:58:40Z)
SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文参考訳（メタデータ） (2024-01-29T10:01:10Z)
Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文参考訳（メタデータ） (2023-10-04T07:56:42Z)
Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文参考訳（メタデータ） (2023-06-27T17:58:39Z)
Gym-preCICE: Reinforcement Learning Environments for Active Flow Control [0.0]
Gym-preCICEはPythonのアダプタで、Gymnasium (以前はOpenAI Gymとして知られていた) APIに完全に準拠している。 Gym-preCICEは、分割多重物理シミュレーションのためのオープンソースの結合ライブラリであるPreCICEを利用する。このフレームワークは、リアルな物理ベースのシミュレーションツールボックスとRLアルゴリズムをシームレスに統合する。
論文参考訳（メタデータ） (2023-05-03T10:54:56Z)
Automated Progressive Learning for Efficient Training of Vision Transformers [125.22744987949227]
ビジョントランスフォーマー(ViT)は、コンピュータパワーに対する大胆な欲求を持ち、ViTの効率的なトレーニング方法を開発するために緊急に必要となる。プログレッシブラーニング(Progressive Learning)は、モデルキャパシティがトレーニング中に徐々に成長するトレーニングスキームである。本稿では,先進的な学習をカスタマイズし,自動化することで,ViTの効率的な訓練に向けて実践的な一歩を踏み出した。
論文参考訳（メタデータ） (2022-03-28T05:37:08Z)
Podracer architectures for scalable Reinforcement Learning [23.369001500657028]
強化学習(RL)エージェントを大規模に訓練する方法はまだ活発な研究分野である。このレポートでは、TPUはスケーラブルで効率的で再現性の高い方法でRLエージェントをトレーニングするのに特に適しています。
論文参考訳（メタデータ） (2021-04-13T15:05:35Z)
Reinforcement Learning for Control of Valves [0.0]
本稿では,非線形弁制御のための最適制御戦略として強化学習(RL)を提案する。 PID(proportional-integral-deivative)戦略に対して、統一されたフレームワークを用いて評価される。
論文参考訳（メタデータ） (2020-12-29T09:01:47Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)
Lyceum: An efficient and scalable ecosystem for robot learning [11.859894139914754]
Lyceumは、ロボット学習のための高性能な計算エコシステムである。 Julia プログラミング言語と MuJoCo 物理シミュレータ上に構築されている。 OpenAIのGymやDeepMindのdmコントロールなど,一般的な抽象化よりも5～30倍高速です。
論文参考訳（メタデータ） (2020-01-21T05:03:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。