論文の概要: Blue River Controls: A toolkit for Reinforcement Learning Control
Systems on Hardware
- arxiv url: http://arxiv.org/abs/2001.02254v1
- Date: Tue, 7 Jan 2020 19:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 21:37:00.675354
- Title: Blue River Controls: A toolkit for Reinforcement Learning Control
Systems on Hardware
- Title(参考訳): Blue River Controls: ハードウェア上の強化学習制御システムのためのツールキット
- Authors: Kirill Polzounov, Ramitha Sundar, Lee Redden
- Abstract要約: 私たちはBlue River Controlsという,現実世界のハードウェア上で強化学習アルゴリズムのトレーニングとテストを可能にするツールを紹介します。
OpenAI Gymをベースとしたシンプルなインターフェースを備えており、シミュレーションとハードウェアの両方で直接動作する。
また、他のハードウェア上でのRLアルゴリズムのトレーニングを簡単にするツールも提供しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a simple hardware wrapper around the Quanser's
hardware-in-the-loop software development kit (HIL SDK) to allow for easy
development of new Quanser hardware. To connect to the hardware we use a module
written in Cython. The internal QuanserWrapper class handles most of the
difficult aspects of interacting with hardware, including the timing (using a
hardware timer), and ensuring the data sent to hardware is safe and correct,
where safety corresponds to safe operating voltage and current for the
specified hardware. Much of the recent success of Reinforcement learning (RL)
has been made possible with training and testing tools like OpenAI Gym and
Deepmind Control Suite. Unfortunately, tools for quickly testing and
transferring high-frequency RL algorithms from simulation to real hardware
environment remain mostly absent. We present Blue River Controls, a tool that
allows to train and test reinforcement learning algorithms on real-world
hardware. It features a simple interface based on OpenAI Gym, that works
directly on both simulation and hardware. We use Quanser's Qube Servo2-USB
platform, an underactuated rotary pendulum as an initial testing device. We
also provide tools to simplify training RL algorithms on other hardware.
Several baselines, from both classical controllers and pretrained RL agents are
included to compare performance across tasks. Blue River Controls is available
at this https URL: https://github.com/BlueRiverTech/quanser-openai-driver
- Abstract(参考訳): 我々はQuanserのハードウェア・イン・ザ・ループ・ソフトウェア開発キット(HIL SDK)を囲むシンプルなハードウェアラッパーを提供し、新しいQuanserハードウェアの開発を容易にする。
ハードウェアに接続するには、Cythonで記述されたモジュールを使用します。
内部quanserwrapperクラスは、(ハードウェアタイマーを使用する)タイミングや、ハードウェアに送信されるデータが安全かつ正しいことを保証することを含む、ハードウェアとのインタラクションの難点の大部分を処理し、安全が指定されたハードウェアの安全な動作電圧と電流に対応する。
Reinforcement Learning(RL)の成功の多くは、OpenAI GymやDeepmind Control Suiteといったトレーニングとテストツールによって実現されている。
残念なことに、シミュレーションから実際のハードウェア環境への高速なRLアルゴリズムのテストと転送のためのツールはほとんどない。
強化学習アルゴリズムを実世界のハードウェア上でトレーニングし,テストするためのツールであるblue river controlsを提案する。
openai gymをベースにしたシンプルなインターフェースで、シミュレーションとハードウェアの両方で直接動作する。
QuanserのQube Servo2-USBプラットフォームは、初期テストデバイスとして不活性化された回転振り子である。
また、他のハードウェア上でのRLアルゴリズムのトレーニングを簡単にするツールも提供しています。
古典的なコントローラと事前訓練されたRLエージェントの両方のベースラインは、タスク間でのパフォーマンスを比較するために含まれている。
blue river controlsはこのhttps urlで利用可能である。 https://github.com/bluerivertech/quanser-openai-driver
関連論文リスト
- SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Using the IBM Analog In-Memory Hardware Acceleration Kit for Neural
Network Training and Inference [1.8381945648605231]
このチュートリアルには、AIHWKitを使用して実行できる包括的なJupyter Notebookコード例が伴っている。
本稿では,AIHWKitの設計,機能,ベストプラクティスを詳細に記述し,推論とトレーニングを適切に行う。
我々はまた、完全に管理されたクラウド環境でAIHWKitシミュレーションを使用する利点を提供するプラットフォームであるAnalog AI Cloud Composerの概要を提示する。
論文 参考訳(メタデータ) (2023-07-18T15:44:24Z) - Katakomba: Tools and Benchmarks for Data-Driven NetHack [52.0035089982277]
NetHackは強化学習研究のフロンティアとして知られている。
採用には、リソースワイド、実装ワイド、ベンチマークワイドの3つの大きな障害がある、と私たちは主張しています。
オフラインの強化学習コミュニティに慣れ親しんだワークフローの基礎を提供するオープンソースライブラリを開発した。
論文 参考訳(メタデータ) (2023-06-14T22:50:25Z) - RLtools: A Fast, Portable Deep Reinforcement Learning Library for Continuous Control [7.259696592534715]
深層強化学習(Deep Reinforcement Learning, RL)は、複数のドメインで有能なエージェントとコントロールポリシーを得られるが、一般的には、非常に長い訓練時間によって悩まされる。
RLtoolsは依存性のない、ヘッダのみの純粋なC++ライブラリで、深い教師付きと強化学習のためのライブラリである。
論文 参考訳(メタデータ) (2023-06-06T09:26:43Z) - VRKitchen2.0-IndoorKit: A Tutorial for Augmented Indoor Scene Building
in Omniverse [77.52012928882928]
INDOORKITはNVIDIA OMNIVERSEの組み込みツールキットである。
屋内シーンビルディング、シーンランダム化、アニメーションコントロールのための柔軟なパイプラインを提供する。
論文 参考訳(メタデータ) (2022-06-23T17:53:33Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - Cockpit: A Practical Debugging Tool for Training Deep Neural Networks [27.96164890143314]
学習機械の内部動作をより深く観察することのできる機器のコレクションを提示する。
これらの機器は勾配分布と曲率に関する新しい高次情報を利用する。
論文 参考訳(メタデータ) (2021-02-12T16:28:49Z) - Tonic: A Deep Reinforcement Learning Library for Fast Prototyping and
Benchmarking [4.721069729610892]
ディープラーニングは、ここ数年で急速に成長している機械学習の分野のひとつであり、研究を支援するために多くのライブラリがオープンソース化されている。
本稿では、PythonライブラリであるTonicを紹介し、研究者が新しいアイデアを迅速に実装し、その重要性を測ることを可能にする。
論文 参考訳(メタデータ) (2020-11-15T14:10:37Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - TriFinger: An Open-Source Robot for Learning Dexterity [33.26612195196921]
人間の監督なしに安全に操作できるオープンソースのロボットプラットフォームを提案する。
ハードウェアは安価だが、非常にダイナミックで堅牢で、外部オブジェクトとの複雑な相互作用が可能である。
提案プラットフォームの可能性について,リアルタイム最適制御,スクラッチからの深層強化学習,投球,ライティングなど,数多くの実験を通じて説明する。
論文 参考訳(メタデータ) (2020-08-08T20:54:30Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。