論文の概要、ライセンス

# (参考訳) rl_reach: ロボットリーチタスクのための再現可能な強化学習実験 [全文訳有]

rl_reach: Reproducible Reinforcement Learning Experiments for Robotic Reaching Tasks ( http://arxiv.org/abs/2102.04916v1 )

ライセンス: CC BY-SA 4.0
Pierre Aumjaud, David McAuliffe, Francisco Javier Rodr\'iguez Lera, Philip Cardiff(参考訳) 与えられたタスクを解決するための強化学習エージェントのトレーニングは、ハイパーパラメータの最適なセットを特定し、適切な環境入力/出力構成を選択することに大きく依存する。 この面倒なプロセスは、簡単なツールボックスで簡単になり、ユーザーは異なるトレーニングパラメータを素早く比較できる。 カスタマイズ可能なロボットリーチタスクのための再現可能な強化学習実験を実行するために設計された,自己完結型,オープンソース,使いやすいソフトウェアパッケージであるrl_reachを提案する。 rl_reachは、トレーニング環境、エージェント、ハイパーパラメータ最適化ツール、ポリシー評価スクリプトをまとめて、最適なトレーニング設定を素早く調査し特定することができる。 rl_reachはこのURLで公開されている。

Training reinforcement learning agents at solving a given task is highly dependent on identifying optimal sets of hyperparameters and selecting suitable environment input / output configurations. This tedious process could be eased with a straightforward toolbox allowing its user to quickly compare different training parameter sets. We present rl_reach, a self-contained, open-source and easy-to-use software package designed to run reproducible reinforcement learning experiments for customisable robotic reaching tasks. rl_reach packs together training environments, agents, hyperparameter optimisation tools and policy evaluation scripts, allowing its users to quickly investigate and identify optimal training configurations. rl_reach is publicly available at this URL: https://github.com/P ierreExeter/rl_reach .
公開日: Tue, 9 Feb 2021 16:14:10 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 b e F 9 1 2 0 2 b e F 9 0.85
] G L . ] G L。 0.79
s c [ 1 v 6 1 9 4 0 sc [ 1 v 6 1 9 4 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
rl_reach: REPRODUCIBLE REINFORCEMENT LEARNING rl_reach: 再現性強化学習 0.57
EXPERIMENTS FOR ROBOTIC REACHING TASKS ロボットリーチタスクのための実験 0.44
Pierre Aumjaud∗ Pierre Aumjaud∗ 0.88
University College Dublin Dublin, Ireland ダブリン大学 アイルランド、ダブリン 0.58
David McAuliffe David McAuliffe 0.85
Resero Ltd Dublin, Ireland 株式会社レセロ アイルランド、ダブリン 0.61
pierre.aumjaud@ucd.i e pierre.aumjaud@ucd.i e 0.59
david.mcauliffe@rese ro.io david.mcauliffe@rese ro.io 0.59
Francisco Javier Rodríguez Lera フランシスコ・ジャビエル・ロドリゲス・レラ(Francisco Javier Rodríguez Lera) 0.44
Universidad de León León, Spain レオン大学 スペイン・レオン 0.56
fjrodl@unileon.es fjrodl@unileon.es 0.78
Philip Cardiff フィリップ・カーディフ 0.59
University College Dublin Dublin, Ireland ダブリン大学 アイルランド、ダブリン 0.58
philip.cardiff@ucd.i e philip.cardiff@ucd.i e 0.59
ABSTRACT Training reinforcement learning agents at solving a given task is highly dependent on identifying optimal sets of hyperparameters and selecting suitable environment input / output configurations. ABSTRACT 与えられたタスクを解決するための強化学習エージェントのトレーニングは、ハイパーパラメータの最適なセットを特定し、適切な環境入力/出力構成を選択することに大きく依存する。 0.76
This tedious process could be eased with a straightforward toolbox allowing its user to quickly compare different training parameter sets. この面倒なプロセスは、簡単なツールボックスで簡単になり、ユーザーは異なるトレーニングパラメータを素早く比較できる。 0.78
We present rl_reach, a self-contained, open-source and easy-to-use software package designed to run reproducible reinforcement learning experiments for customisable robotic reaching tasks. カスタマイズ可能なロボットリーチタスクのための再現可能な強化学習実験を実行するために設計された,自己完結型,オープンソース,使いやすいソフトウェアパッケージであるrl_reachを提案する。 0.51
rl_reach packs together training environments, agents, hyperparameter optimisation tools and policy evaluation scripts, allowing its users to quickly investigate and identify optimal training configurations. rl_reachは、トレーニング環境、エージェント、ハイパーパラメータ最適化ツール、ポリシー評価スクリプトをまとめて、最適なトレーニング設定を素早く調査し特定することができる。 0.65
rl_reach is publicly available at this URL: https://github.com/P ierreExeter/rl_reach . rl_reachはこのURLで公開されている。 0.57
Keywords Reinforcement Learning · Robotics · Benchmark · Model-free · Stable Baselines Current code version Permanent link to code/repository Permanent link to Reproducible Capsule Legal Code License Code versioning system used Software code language used Compilation requirements & dependencies Docker OR Python 3, Conda, CUDA (optional) Link to developer documentation/manual Support email for questions キーワード Reinforcement Learning · Robotics · Benchmark · モデルフリー · 安定的ベースライン 現在のコードバージョン コード/リポジトリへの永続的リンク Reproducible Capsule Legal Code License コードバージョニングシステム コードバージョニングシステムの使用 コンパイル要件と依存関係を使用したソフトウェアコード言語 Docker OR Python 3, Conda, CUDA (Optional) Link to developer documentation/manual Support email for question 0.89
v1.0 https://github.com/P ierreExeter/rl_reach https://codeocean.co m/capsule/4112840/tr ee/v1 MIT License git Python 3 v1.0 https://github.com/P ierreExeter/rl_reach https://codeocean.co m/capsule/4112840/tr ee/v1 MIT License git Python 3 0.39
https://rl-reach.rea dthedocs.io/en/lates t/index.html pierre.aumjaud@ucd.i e Table 1: Code metadata https://rl-reach.rea dthedocs.io/en/lates t/index.html pierre.aumjaud@ucd.i e Table 1: コードメタデータ 0.40
1 Context and Motivations Industrial processes have seen their productivity and efficiency increase considerably in recent decades thanks to the automation of repetitive tasks, notably with the advances in robotics. 1 文脈と動機 産業プロセスは、繰り返しタスクの自動化、特にロボット工学の進歩により、ここ数十年で生産性と効率が大幅に向上している。 0.74
This productivity can be further improved by enabling robotic agents to solve tasks independently, without being explicitly programmed by humans. この生産性は、ロボットエージェントが人間によって明示的にプログラムされることなく、独立してタスクを解決できるようにすることでさらに向上することができます。
訳抜け防止モード: この生産性はさらに向上し ロボットエージェントが人間によって明示的にプログラムされることなく、独立してタスクを解決できるようにする。
0.64
Reinforcement Learning (RL) is a general framework for solving sequential decision-making tasks through self-learning and as such, it has found natural applications in robotics. 強化学習(RL)は、自己学習を通じて連続的な意思決定タスクを解決するための一般的なフレームワークであり、ロボット工学における自然な応用を見出した。 0.63
In RL, an agent interacts with an environment by sending RLでは、エージェントが送信によって環境と相互作用する 0.73
∗Corresponding author ∗対応作家 0.57
英語(論文から抽出)日本語訳スコア
rl_reach: Reproducible RL Experiments rl_reach:再現性RL実験 0.73
actions and receiving an observation – describing the current state of the world – and a reward – describing the quality of the action taken. 行動と観察を受けること - 世界の現在の状況を記述すること - と報酬 - は、取られた行動の質を記述する。 0.73
The agent’s objective is to maximise the expected cumulative return by learning a policy that will select the appropriate actions in each situation. エージェントの目的は、各状況で適切な行動を選択する方針を学び、予想される累積リターンを最大化することです。
訳抜け防止モード: エージェントの目標は それぞれの状況で適切な行動を選択する政策を学ぶことで、期待される累積リターンを最大化する。
0.79
RL has found many successful applications, however, experiments are notoriously hard to reproduce as the learning process is highly dependent on weight initialisation and environment stochasticity [1]. rlは多くのアプリケーションが成功したが、学習プロセスが重みの初期化と環境確率に大きく依存するため、実験は再現が難しいことで悪名高い([1])。 0.70
In order to improve reproducibility and compare RL solutions objectively, various standard toy problems have been implemented [2–7]. 再現性を改善し、RLソリューションを客観的に比較するために、さまざまな標準的なおもちゃの問題が実装されています [2–7]。 0.55
A number of software suites provide training environments for continuous control tasks in robotics, such as dm_control [8, 9], Meta-World [10], SURREAL [11], RLBench [12], D4RL [13], robosuite [14] and robo-gym [15]. dm_control [8, 9], meta-world [10], surreal [11], rlbench [12], d4rl [13], robosuite [14], robo-gym [15]など,ロボット工学における継続的制御タスクのためのトレーニング環境を提供するソフトウェアスイートがいくつかある。 0.85
We introduce rl_reach, a self-contained, open-source and easy-to-use software package for running reproducible RL experiments applied to robotic reaching tasks. 本稿では,ロボット到達タスクに適用した再現可能なRL実験を実行するための,自己完結型オープンソースかつ使いやすいソフトウェアパッケージであるrl_reachを紹介する。
訳抜け防止モード: 自己完結型オープンソースrl_reachを紹介する 簡単に - ソフトウェアパッケージを使おう 再現可能なrl実験をロボットの到達タスクに適用する。
0.64
Its objective is to allow researchers to quickly investigate and identify promising sets of training parameters for a given task. その目的は、研究者が与えられたタスクの有望なトレーニングパラメータのセットを迅速に調査し、特定できるようにすることです。 0.65
rl_reach is built on top of Stable Baselines 3 [16] – a popular RL framework. rl_reachは、人気のあるRLフレームワークであるStable Baselines 3 [16]上に構築されている。 0.64
The training environments are based on the WidowX MK-II robotic arm and are adapted from the Replab project [17], a benchmark platform for running RL robotics experiments. トレーニング環境はwildx mk-iiロボットアームに基づいており、rlロボティクス実験を実行するためのベンチマークプラットフォームであるreplabプロジェクト[17]から適応している。 0.74
rl_reach encapsulates all the necessary elements for producing a robust performance benchmark of RL solutions for simple robotics reaching tasks. rl_reachは、簡単なロボット工学のためのRLソリューションの堅牢なパフォーマンスベンチマークを作成するために必要なすべての要素をカプセル化します。 0.58
We aim to promote reproducible experimentation practice in RL research. RL研究における再現性実験の実践を促進することを目指しています。 0.57
2 Functionalities and Key Features The rl_reach software has been designed to quickly and reliably run RL experiments and compare the performance of trained RL agents against algorithms, hyperparameters and training environments. 2つの機能と特徴 rl_reachソフトウェアは、RL実験を迅速かつ確実に実行し、トレーニングされたRLエージェントのパフォーマンスをアルゴリズム、ハイパーパラメータ、トレーニング環境と比較するように設計されている。 0.77
The code metadata are given in Table 1. rl_reach’s key features are: コードメタデータは、Table 1.rl_reachの主な機能で示されています。 0.68
• Self-contained : rl_reach packs together a widely-used RL framework – Stable Baselines 3 [16], training environments, evaluation and hyperparameter tuning scripts (Figure 1). • 自己完結型: rl_reachは広く使用されているrlフレームワークをまとめる – 安定したベースライン3 [16],トレーニング環境,評価,ハイパーパラメータチューニングスクリプト(図1)。 0.80
In addition to its ease of usability, only a few other packages offer such self-contained code. ユーザビリティの容易さに加えて、そのような自己完結型コードを提供するパッケージはごくわずかである。 0.65
• Free and open-source : The source code is written in Python 3 and published under the permissive MIT license, with no commercial licensing restrictions. • フリーかつオープンソース: ソースコードはpython 3で書かれ、mitライセンス下で公開されているが、商用ライセンスの制限はない。 0.81
rl_reach only makes use of free and open-source projects such as the deep learning library PyTorch [18] or the physics simulator Pybullet [19]. rl_reach は、ディープラーニングライブラリ PyTorch [18] や物理シミュレータ Pybullet [19] など、無料でオープンソースのプロジェクトのみを利用しています。 0.81
Many RL frameworks require a paid MuJoCo license, which can be an obstacle for sharing research results. 多くのRLフレームワークは有料のMuJoCoライセンスを必要とします。 0.45
Code quality and legibility is guaranteed with standard software development tools, including the Git version control system, Pylint syntax checker, Travis continuous integration service and automated tests. コード品質と信頼性は、gitバージョン管理システム、pylint構文チェッカー、travis継続的インテグレーションサービス、自動テストなど、標準的なソフトウェア開発ツールで保証されている。 0.69
• Easy-to-use : A simple command-line interface is provided to train agents, evaluate policies, visualise the results and tune hyperparameters. • 使いやすさ: エージェントを訓練し、ポリシーを評価し、結果を視覚化し、ハイパーパラメータをチューニングするためのシンプルなコマンドラインインターフェースを提供する。 0.65
Documentation is provided to assist end-users with the installation and main usage of rl_reach. ドキュメントは、エンドユーザがrl_reachのインストールとメイン利用を支援するために提供される。 0.64
The software and its dependencies can be installed from source with the Github repository and Conda environment provided. ソフトウェアとその依存関係はGithubリポジトリとConda環境によってソースからインストールすることができる。 0.86
Portability is maximised across platforms by providing rl_reach as a Docker image, allowing it to run on any operating system that supports Docker. 可搬性は、rl_reachをDockerイメージとして提供し、プラットフォーム全体で最大化され、Dockerをサポートする任意のオペレーティングシステム上で実行することができる。
訳抜け防止モード: ポータビリティはプラットフォーム全体で最大化される Dockerイメージとしてrl_reachを提供することで、Dockerをサポートするすべてのオペレーティングシステム上で実行できる。
0.71
Finally, a reproducible code capsule is available online on the CodeOcean platform. 最後に、再現可能なコードカプセルがCodeOceanプラットフォームでオンラインで入手できる。 0.72
• Customisable training environments : rl_reach comes with a number of training environments for solving the reaching task with the WidowX robotic arm. •カスタマイズ可能なトレーニング環境:rl_reachには、WidowXロボットアームで到達するタスクを解決するための多くのトレーニング環境が付属しています。 0.68
These environments are easily customisable to experiment with different action, observation or reward functions. これらの環境は、異なるアクション、観察、報酬機能を試すために容易にカスタマイズできる。 0.59
While many similar software packages exploit toy problems as benchmark tasks, rl_reach provides its users with a training environment that is closer to an industrial problem, namely reaching a target position with a robotic arm. 多くの類似のソフトウェアパッケージは、おもちゃの問題をベンチマークタスクとして利用しているが、rl_reachはユーザに対して、産業的な問題に近いトレーニング環境を提供する。 0.70
• Stable Baselines inheritance : Since rl_reach is built on top of Stable Baselines 3 [16] and its "Zoo", it comes with the same functionalities. • Stable Baselines 継承 : rl_reach は Stable Baselines 3 [16] と "Zoo" の上に構築されているため、同じ機能を備えています。 0.91
In particular, it supports recent model-free RL algorithms such as A2C, DDPG, HER, PPO, SAC and TD3 and automatic hyperparameter tuning with the Optuna optimisation framework [20]. 特に、A2C、DDPG、HER、PPO、SAC、TD3などの最近のモデルフリーRLアルゴリズムをサポートし、Optuna最適化フレームワークによる自動ハイパーパラメータチューニング [20]。 0.69
• Reproducible experiments : Each experiment (with a unique identification number) consists of a number of runs with identical training parameters but initialised with different initialisation seeds. •再現可能な実験 : 各実験(ユニークな識別番号を持つ)は、同一のトレーニングパラメータを持つが、初期化シードが異なる複数のランで構成される。 0.82
The evaluation metrics are averaged across all the seed runs to promote reproducible, reliable and robust experiments. 評価メトリクスは、再現可能で信頼性があり、堅牢な実験を促進するために、すべてのシード実行で平均される。
訳抜け防止モード: 評価指標はすべての種の実行で平均化されます 再現性、信頼性、堅牢な実験を促進するのです
0.64
• Straightforward benchmark : When a trained policy is evaluated, the evaluation metrics, environment’s variables and training hyperparameters are automatically logged in a CSV format. • 直接的なベンチマーク: トレーニングされたポリシが評価されると、評価メトリクス、環境変数、トレーニングハイパーパラメータがcsv形式で自動的にログされる。
訳抜け防止モード: • ストレートフォワード・ベンチマーク : 訓練されたポリシーが評価された場合、評価指標。 環境変数とトレーニングハイパーパラメータは、自動的にCSV形式でログされる。
0.82
The performance of a selection of experiment runs can be visualised and compared graphically (Figure 2). 実験実行の選択のパフォーマンスを視覚化し、グラフィカルに比較することができます(図2)。 0.79
• Debugging tools : It is possible to produce a 2D or 3D live plot of the end-effector and goal positions during an evaluation episode (Figure 3), as well as a number of physical characteristics of the environment such as the end-effector and the target position, the joint’s angular position, reward, distance, velocity or acceleration •デバッグツール : 評価エピソード中にエンドエフェクタとゴール位置の2Dまたは3Dライブプロットを作成できる(第3報)とともに,エンドエフェクタとターゲット位置,関節角位置,報酬,距離,速度,加速度といった環境の物理的特徴を多数生み出すことができる。 0.78
2 2 0.85
英語(論文から抽出)日本語訳スコア
rl_reach: Reproducible RL Experiments rl_reach:再現性RL実験 0.73
between the end-effector and the target (Figure 4). エンドエフェクタとターゲットとの間に(第4図)。 0.71
It is also possible to plot the training curves for each individual seed run (Figure 5). 個々のシード実行ごとにトレーニング曲線をプロットすることもできます(図5)。 0.73
These plots have proven useful for debugging purposes, especially when testing a new training environment. これらのプロットはデバッグ目的、特に新しいトレーニング環境をテストする場合に有用であることが証明されている。 0.53
Figure 1: rl_reach’s flowchart and components 図1: rl_reachのフローチャートとコンポーネント 0.86
3 Impact Overview Reinforcement Learning is a recent and highly active research field, with a relatively large number of RL solutions published every year. 3 インパクト概観 強化学習は近年非常に活発な研究分野であり、毎年比較的多くのRLソリューションが発行されている。 0.78
Accurately evaluating and objectively comparing novel and existing RL approaches is crucial to ensure continued progress in the field. 新しいアプローチと既存のRLアプローチを正確に評価し、客観的に比較することは、この分野の継続的な進歩を保証するために重要です。
訳抜け防止モード: 新規RLアプローチと既存RLアプローチの正確な評価と客観的比較 フィールドの継続的な進歩を 確実にするために 不可欠です。
0.63
Reproducing RL experimental results is often challenging due to stochasticity in the training process and training environments [1]. RL実験結果を再生することは、トレーニングプロセスとトレーニング環境の確率性のためにしばしば困難です[1]。 0.79
By providing a systematic tool for carrying out reproducible RL experiments, we hope that rl_reach will promote better experimental practice in the RL research community and improve reporting and interpretation of results. 再現性のあるRL実験を行うための体系的なツールを提供することで、rl_reachがRL研究コミュニティにおけるより良い実験実践を促進し、結果の報告と解釈を改善することを願っています。 0.68
Since rl_reach’s interface is straightforward, intuitive and allows for a quick graphical comparison of experiments, it can be used as an educational platform for learning the practicalities of RL training. rl_reachのインターフェースは簡単で直感的で、実験のグラフィカルな比較を可能にするため、RLトレーニングの実用性を学ぶための教育プラットフォームとして使用できます。 0.81
Training RL agents is highly dependent on a number of intrinsic (eg. 訓練RL剤は、多くの内在性(例えば)に依存している。 0.69
initialisation seeds, reward functions, action shape, number of time steps) and extrinsic (algorithm hyperparameters) variables. 初期化種子、報酬関数、行動形態、時間ステップの数)および外因性(アルゴリズムハイパーパラメータ)変数。 0.77
Identifying the critical parameters that control a successful training can be a daunting task. 成功したトレーニングを制御する重要なパラメータを特定することは、大変な作業です。 0.61
Thanks to its easily customisable learning environments and extensive logging of training parameters, rl_reach offers a unique solution to explore the effects of both intrinsic and extrinsic parameters on the training performance. カスタマイズが容易な学習環境とトレーニングパラメータの広範なロギングのおかげで、rl_reachは、固有のパラメータと外部パラメータの両方がトレーニングパフォーマンスに与える影響を調査するためのユニークなソリューションを提供する。 0.72
Finally, rl_reach provides learning environments designed to train a robotic manipulator to reach a target position. 最後に、rl_reachは、ロボットマニピュレータを目標位置に到達させるトレーニング用に設計された学習環境を提供する。 0.61
This task is more industrially-relevan t than many of the toy problems considered in other benchmark packages, thus allowing straightforward transfer of RL applications from academic research to industry. このタスクは他のベンチマークパッケージで考慮された多くのおもちゃの問題よりも工業的に関連があるため、RLアプリケーションを学術研究から産業へ簡単に移行することができる。 0.64
A peer-reviewed article [21] has emanated from this software where the performance of robotics RL agents trained to reach target positions is compared. このソフトウェアから、目標位置に到達するように訓練されたロボットRLエージェントの性能を比較するピアレビュー記事[21]が作成されている。 0.73
The trained policies were successfully transferred from the simulated to the physical robot environment. 訓練されたポリシーはシミュレートされたロボット環境から物理的ロボット環境に移された。 0.64
3 rl_reachPybullet engineEnvironment 1Environment 2Environment 10Stable Baselines 3RL Agents (PPO, TD3, SAC, etc...)Hyperparamete rtuning (Optuna)Experiment folderTrained policiesOptimal hyperparametersEvalu ation metricsTraining curvesLive target visualisationBenchma rk plotReward, ObservationObservati onActionAction 3 rl_reachPybullet EngineEnvironment 1Environment 2Environment 10Stable Baselines 3RL Agents (PPO, TD3, SACなど)Hyperparametertunin g (Optuna)ExperimentTr ained PolicyOptimal hyperparametersEvalu ationmetricsTraining curvesLive target visualisationBenchma rk plotReward,Observati onActionAction
訳抜け防止モード: 3 rl_reachPybullet engineEnvironment 1Environment 2Environment 10Stable Baselines 3RL Agents (PPO, TD3,) SAC, etc ) Hyperparametertuning (Optimal HyperparametersEvalu ation curvesLive target visualisationBenchma rk plotReward,Observati onObservationActionA ction
0.85
英語(論文から抽出)日本語訳スコア
rl_reach: Reproducible RL Experiments rl_reach:再現性RL実験 0.73
Figure 2: An example of visualisation plot that compares the performance of different RL experiments 図2:異なるRL実験のパフォーマンスを比較する可視化プロットの例。 0.78
Figure 3: The training environment with live visualisation of the end-effector and target position 図3:エンドエフェクターとターゲット位置のライブ可視化によるトレーニング環境 0.77
4 obs1obs2obs3obs4obs5 obs1.00.5Mean returnmean_returnobs 1obs2obs3obs4obs5obs 278028002820Train time (s)mean_train_time(s )obs1obs2obs3obs4obs 5obs0.00.51.0Mean success ratiomean_SR_50mean_ SR_20mean_SR_10mean_ SR_5mean_SR_2mean_SR _1mean_SR_05obs1obs2 obs3obs4obs5obs0.00. 51.0Max success ratiomax_SR_50max_SR _20max_SR_10max_SR_5 max_SR_2max_SR_1max_ SR_05obs2obs3obs4obs 5obs204060Reach timemean_RT_50mean_R T_20mean_RT_10mean_R T_5mean_RT_2mean_RT_ 1mean_RT_05 4 obs1obs2obs3obs4obs5 obs1.00.5Mean returnmean_returnobs 1obs3obs4obs5obs2780 22820Train time (s)mean_train_time(s )obs1obs2obs3obs4obs 5obs0.00.51.0Mean success ratiomean_SR_50mean_ SR_20mean_SR_10mean_ SR_5mean_SR_2mean_SR _1mean_SR_05obs1obs2 obs3obs4obs5obs0.00. 51.0max success ratiomax_50max_SR_20 max_SR_10max_SRs5max _SR_5mean_RT_10mean_ SR_10mean_SR_10mean_ SR_5mean_SR_SR_10mea n_SR_5mean_SR_5mean_ SR_10mean_RTRT 0.48
英語(論文から抽出)日本語訳スコア
rl_reach: Reproducible RL Experiments rl_reach:再現性RL実験 0.73
Figure 4: An example of metadata plot after the evaluation of a trained policy 図4: 訓練されたポリシーの評価後のメタデータプロットの例 0.83
Figure 5: An example of training curve plot 図5: トレーニング曲線プロットの例。 0.70
5 3210123joint1 pos (rad)joint_pos1joint 1_minjoint1_max0.010 .000.01action1 (rad)action_1action_ low1action_high13210 123joint5 pos (rad)joint_pos5joint 5_minjoint5_max0.010 .000.01action5 (rad)action_5action_ low5action_high5101j oint2 pos (rad)joint_pos2joint 2_minjoint2_max0.005 0.0000.005action2 (rad)action_2action_ low2action_high20.04 0.020.000.020.04join t6 pos (rad)joint_pos6joint 6_minjoint6_max0.000 10.00000.0001action6 (rad)action_6action_ low6action_high6101j oint3 pos (rad)joint_pos3joint 3_minjoint3_max0.005 0.0000.005action3 (rad)action_3action_ low3action_high30.02 50.0200.0150.0100.00 50.000rewardrewardte rm1term20.000.050.10 0.15distance (m)distance020406080 100timestep101joint4 pos (rad)joint_pos4joint 4_minjoint4_max02040 6080100timestep0.005 0.0000.005action4 (rad)action_4action_ low4action_high40204 06080100timestep2001 000100acc (m/s^2)est_acc02040608010 0timestep0.00.10.20. 3coordinates (m)goal_xgoal_ygoal_ ztip_xtip_ytip_z1.00 0.750.500.250.000.25 vel (m/s)est_vel012345Ti mesteps×105−3.0−2.5−2.0−1.5−1.0−0.5Averagereturnseed 1seed2seed3seed4seed 5seed6seed7seed8seed 9seed10meanreward 5 3210123joint1 pos (rad)joint_pos1joint 1_minjoint1_max0.010 .000.01action1 (rad)action_1action_ low1action_high13210 123joint5 pos (rad)joint_pos5joint 5_minjoint5_max0.010 .000.01action5 (rad)action_5action_ low5action_high5101j oint2 pos (rad)joint_pos2joint 2_minjoint2_max0.005 0.0000.005action2 (rad)action_2action_ low2action_high20.04 0.020.000.020.04join t6 pos (rad)joint_pos6joint 6_minjoint6_max0.000 10.00000.0001action6 (rad)action_6action_ low6action_high6101j oint3 pos (rad)joint_pos3joint 3_minjoint3_max0.005 0.0000.005action3 (rad)action_3action_ low3action_high30.02 50.0200.0150.0100.00 50.000rewardrewardte rm1term20.000.050.10 0.15distance (m)distance020406080 100timestep101joint4 pos (rad)joint_pos4joint 4_minjoint4_max02040 6080100timestep0.005 0.0000.005action4 (rad)action_4action_ low4action_high40204 06080100timestep2001 000100acc (m/s^2)est_acc02040608010 0timestep0.00.10.20. 3coordinates (m)goal_xgoal_ygoal_ ztip_xtip_ytip_z1.00 0.750.500.250.000.25 vel (m/s)est_vel012345Ti mesteps×105−3.0−2.5−2.0−1.5−1.0−0.5Averagereturnseed 1seed2seed3seed4seed 5seed6seed7seed8seed 9seed10meanreward 0.53
英語(論文から抽出)日本語訳スコア
rl_reach: Reproducible RL Experiments rl_reach:再現性RL実験 0.73
4 Conclusion and Potential Improvements 4 結論と可能性改善 0.88
We chose to focus on the reaching task as it is one of the simplest tasks to solve with a robotic arm, which allows users to run experiments with relatively low computing resources, while still being industrially relevant. 私たちは、ロボットアームで解決する最も簡単なタスクの1つであるリーチタスクに焦点を当てました。これにより、ユーザーは比較的低い計算リソースで実験を実行できますが、工業的には関連性があります。 0.63
Moreover, the reaching task allows the user to shape the reward easily and to implement training environments with both dense and sparse rewards. さらに、到達タスクは、ユーザーが簡単に報酬を形成し、密でスパースな報酬の両方でトレーニング環境を実装することができます。 0.61
However, rl_reach would benefit from supporting more complex and diverse manipulation tasks such as stacking, assembly, pushing or inserting. しかし、rl_reachはスタック、アセンブリ、プッシュ、挿入といった、より複雑で多様な操作タスクをサポートする利点がある。 0.51
It also does not include the classic toy problems used traditionally for benchmarking RL agents. また、従来のRLエージェントのベンチマークに使われる古典的なおもちゃの問題も含まない。 0.62
Finally, an implementation of the training environments for the physical WidowX arm would help validate the performance of policies trained in simulation. 最後に、物理WidowXアームのトレーニング環境の実装は、シミュレーションでトレーニングされたポリシーのパフォーマンスを検証するのに役立つだろう。 0.68
rl_reach has been designed as a self-contained tool, packaging both the training environments and the RL framework Stable Baselines 3 for convenience purposes. rl_reachは自己完結型ツールとして設計されており、トレーニング環境とRLフレームワークのStable Baselines 3を便利にパッケージ化している。 0.64
However this does not offer the flexibility to experiment with RL algorithms that are not supported by this framework. しかし、このフレームワークではサポートされていないRLアルゴリズムを試す柔軟性は提供されない。 0.74
A potential future improvement would consist in producing a modular implementation of rl_reach where both the training environments and the RL agents could be easily interchangeable. 将来の潜在的な改善は、トレーニング環境とRLエージェントの両方を簡単に交換可能なrl_reachのモジュール化実装を作成することである。 0.72
Acknowledgements This Career-FIT project has received funding from the European Union’s Horizon 2020 research and innovation programme under the Marie Skłodowska-Curie grant agreement No. 認識 このキャリア適合プロジェクトは、marie skłodowska-curie grant agreement no.のもと、euのhorizon 2020 research and innovation programから資金提供を受けている。 0.60
713654. References [1] Henderson, P., Islam, R., Bachman, P., Pineau, J., Precup, D., Meger, D.: Deep reinforcement learning that matters. 713654. 参照 [1] henderson, p., islam, r., bachman, p., pineau, j., precup, d., meger, d.: deep reinforcement learning that matters 0.81
32nd AAAI Conference on Artificial Intelligence pp. 32th AAAI Conference on Artificial Intelligence pp。 0.88
3207–3214 (2018) 3207–3214 (2018) 0.84
[2] Brockman, G., Cheung, V., Pettersson, L., Schneider, J., Schulman, J., Tang, J., Zaremba, W.: OpenAI Gym. [2] Brockman, G., Cheung, V., Pettersson, L., Schneider, J., Schulman, J., Tang, J., Zaremba, W.: OpenAI Gym。 0.87
arXiv 1606.01540 (2016) arXiv 1606.01540 (2016) 0.88
[3] Bellemare, M.G., Veness, J.: The Arcade Learning Environment : An Evaluation Platform for General Agents. [3] bellemare, m.g., veness, j.: the arcade learning environment: a evaluation platform for general agents。 0.79
Journal of Artificial Intelligence Research 47, 253–279 (2013) Journal of Artificial Intelligence Research 47, 253–279 (2013) 0.99
[4] Beattie, C., Leibo, J.Z., Teplyashin, D., Ward, T., Wainwright, M., Lefrancq, A., Green, S., Sadik, A., Schrittwieser, J., Anderson, K., York, S., Cant, M., Cain, A., Bolton, A., Gaffney, S., King, H., Hassabis, D., Legg, S., Petersen, S.: DeepMind Lab. 4] Beattie, C., Leibo, J.Z., Teplyashin, D., Ward, T., Wainwright, M., Lefrancq, A., Green, S., Sadik, A., Schrittwieser, J., Anderson, K., York, S., Cant, M., Cain, A., Bolton, A., Gaffney, S., King, H., Hassabis, D., Legg, S., Petersen, S.: DeepMind Lab。 0.86
arXiv 1612.03801 (2016) arXiv 1612.03801 (2016) 0.88
[5] Nichol, A., Pfau, V., Hesse, C., Klimov, O., Schulman, J.: Gotta Learn Fast: A New Benchmark for Generalization 5] Nichol, A., Pfau, V., Hesse, C., Klimov, O., Schulman, J.: Gotta Learn Fast: A New Benchmark for Generalization 0.82
in RL. arXiv 1804.03720 (2018) RL出身。 arXiv 1804.03720 (2018) 0.77
[6] Cobbe, K., Hesse, C., Hilton, J., Schulman, J.: Leveraging Procedural Generation to Benchmark Reinforcement 6] Cobbe, K., Hesse, C., Hilton, J., Schulman, J.: Procedural Generation to Benchmark Reinforcement 0.79
Learning. In: Proceedings of the 37th International Conference on Machine Learning, pp. 学習。 In:the 37th International Conference on Machine Learning, pp。 0.73
2048 – 2056 (2020) 2048 – 2056 (2020) 0.85
[7] Osband, I., Doron, Y., Hessel, M., Aslanides, J., Sezener, E., Saraiva, A., McKinney, K., Lattimore, T., Szepezvari, C., Singh, S., van Roy, B., Sutton, R., Silver, D., van Hasselt, H.: Behaviour Suite for Reinforcement Learning. [7]Osband, I., Doron, Y., Hessel, M., Aslanides, J., Sezener, E., Saraiva, A., McKinney, K., Lattimore, T., Szepezvari, C., Singh, S., van Roy, B., Sutton, R., Silver, D., van Hasselt, H.: Behaviour Suite for Reinforcement Learning。 0.85
In: International Conference on Learning Representations (2020) in: international conference on learning representations (2020) 参加報告 0.91
[8] Tassa, Y., Doron, Y., Muldal, A., Erez, T., Li, Y., Casas, D.D.L., Budden, D., Abdolmaleki, A., Merel, J., Lefrancq, 8] Tassa, Y., Doron, Y., Muldal, A., Erez, T., Li, Y., Casas, D.D.L., Budden, D., Abdolmaleki, A., Merel, J., Lefrancq. 0.90
A., Lillicrap, T., Riedmiller, M., Benchmarking, F.: DeepMind Control Suite. A., Lillicrap, T., Riedmiller, M., Benchmarking, F.: DeepMind Control Suite。 0.88
arXiv 1801.00690 (2018) arXiv 1801.00690 (2018) 0.88
[9] Tassa, Y., Tunyasuvunakool, S., Muldal, A., Doron, Y., Trochim, P., Liu, S., Bohez, S., Merel, J., Erez, T., Lillicrap, 9] Tassa, Y., Tun Yasuvunakool, S., Muldal, A., Doron, Y., Trochim, P., Liu, S., Bohez, S., Merel, J., Erez, T., Lillicrap. 0.82
T., Heess, N.: dm_control : Software and Tasks for Continuous Control. T., Heess, N.: dm_control : 継続的制御のためのソフトウェアとタスク 0.82
Software Impacts 6(100022) (2020) Software Impacts 6(100022) (2020) 0.85
[10] Yu, T., Quillen, D., He, Z., Julian, R., Hausman, K., Finn, C., Levine, S.: Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning. [10] Yu, T., Quillen, D., He, Z., Julian, R., Hausman, K., Finn, C., Levine, S.: Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning。 0.92
In: Conference on Robot Learning (CoRL) (2019) [11] Fan, L., Zhu, Y., Zhu, J., Liu, Z., Zeng, O., Gupta, A., Creus-Costa, J., Savarese, S., Fei-Fei, L.: SURREAL: Open-Source Reinforcement Learning Framework and Robot Manipulation Benchmark. In: Conference on Robot Learning (CoRL) (2019) [11] Fan, L., Zhu, Y., Zhu, J., Liu, Z., Zeng, O., Gupta, A., Creus-Costa, J., Savarese, S., Fei-Fei, L.: SURREAL: Open-Source Reinforcement Learning Framework and Robot Manipulation Benchmark。 0.93
In: 2nd Conference on Robot Learning, Proceedings of Machine Learning Research, vol. In: 2nd Conference on Robot Learning, Proceedings of Machine Learning Research, vol. 0.90
87, pp. 767–782 (2018) 87, pp。 767–782 (2018) 0.82
[12] James, S., Ma, Z., Arrojo, D.R., Davison, A.J. [12]James, S., Ma, Z., Arrojo, D.R., Davison, A.J. 0.97
: RLBench: The Robot Learning Benchmark & Learning Environ- RLBench:ロボット学習のベンチマークと学習環境- 0.79
ment. IEEE Robotics and Automation Letters 5(2), 3019–3026 (2020) メント IEEE Robotics and Automation Letters 5(2), 3019–3026 (2020) 0.70
[13] Fu, J., Kumar, A., Nachum, O., Tucker, G., Levine, S.: D4RL: Datasets for Deep Data-Driven Reinforcement 13] Fu, J., Kumar, A., Nachum, O., Tucker, G., Levine, S.: D4RL: Datasets for Deep Data-Driven Reinforcement 0.95
Learning. arXiv 2004.07219 (2020) 学習。 arXiv 2004.07219 (2020) 0.81
[14] Zhu, Y., Wong, J., Mandlekar, A., Martín-Martín, R.: robosuite: A Modular Simulation Framework and Benchmark [14]Zhu, Y., Wong, J., Mandlekar, A., Martín-Martín, R.: robosuite: A Modular Simulation Framework and Benchmark 0.92
for Robot Learning. arXiv 2009.12293 (2020) ロボットの学習。 arXiv 200912293(2020年) 0.84
6 6 0.85
英語(論文から抽出)日本語訳スコア
rl_reach: Reproducible RL Experiments rl_reach:再現性RL実験 0.73
[15] Lucchi, M., Zindler, F., Mühlbacher-Karrer, S., Pichler, H.: robo-gym – An Open Source Toolkit for Distributed In: IEEE/RSJ International Conference on [15]Lucchi, M., Zindler, F., Mühlbacher-Karrer, S., Pichler, H.: robo-gym – a Open Source Toolkit for Distributed In: IEEE/RSJ International Conference on 0.96
Deep Reinforcement Learning on Real and Simulated Robots. 実ロボットと実ロボットの深層強化学習 0.67
Intelligent Robots and Systems (IROS) (2020) intelligent robots and systems (iros) (2020年) 0.82
[16] Raffin, A., Hill, A., Ernestus, M., Gleave, A., Kanervisto, A., Dormann, N.: Stable Baselines3 (2019). 16] Raffin, A., Hill, A., Ernestus, M., Gleave, A., Kanervisto, A., Dormann, N.: Stable Baselines3 (2019) 0.82
URL https://github.com/D LR-RM/stable-baselin es3 URL https://github.com/D LR-RM/stable-baselin es3 0.56
[17] Yang, B., Zhang, J., Pong, V., Levine, S., Jayaraman, D.: REPLAB: A Reproducible Low-Cost Arm Benchmark [17] Yang, B., Zhang, J., Pong, V., Levine, S., Jayaraman, D.: REPLAB: A Reproducible Low-Cost Arm Benchmark 0.93
Platform for Robotic Learning. ロボット学習のためのプラットフォーム。 0.76
In: International Conference on Robotics and Automation (ICRA) (2019) In: International Conference on Robotics and Automation (ICRA) (2019) 0.85
[18] Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., Desmaison, A., Köpf, A., Yang, E., DeVito, Z., Raison, M., Tejani, A., Chilamkurthy, S., Steiner, B., Fang, L., Bai, J., Chintala, S.: PyTorch: An imperative style, high-performance deep learning library. [18]Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., Desmaison, A., Köpf, A., Yang, E., DeVito, Z., Raison, M., Tejani, A., Chilamkurthy, S., Steiner, B., Fang, L., Bai, J., Chintala, S.: PyTorch: 命令型スタイル,高度な学習ライブラリ。 0.84
Advances in Neural Information Processing Systems 32, 8026–8037 (2019) ニューラル情報処理システム32, 8026–8037(2019)の進歩 0.84
[19] Coumans, E., Bai, Y.: PyBullet, a Python Module for Physics Simulation for Games, Robotics and Machine Coumans, E., Bai, Y.: PyBullet - ゲーム,ロボティクス,マシンのための物理シミュレーションのためのPythonモジュール
訳抜け防止モード: [19 ]Coumans, E., Bai, Y. : PyBullet, ゲーム、ロボティクス、マシンのための物理シミュレーションのためのPythonモジュール
0.90
Learning (2019). 学習(2019年)。 0.82
URL https://pybullet.org / URL https://pybullet.org / 0.59
[20] Akiba, T., Sano, S., Yanase, T., Ohta, T., Koyama, M.: Optuna: A Next-generation Hyperparameter Optimization Framework. [20]akiba, t., sano, s., yanase, t., ohta, t., koyama, m.: optuna: 次世代ハイパーパラメータ最適化フレームワーク。 0.72
In: Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. In: Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 0.85
2623–2631 (2019). 2623–2631 (2019). 0.88
doi:10.1145/3292500. 3330701 doi:10.1145/3292500. 3330701 0.24
[21] Aumjaud, P., McAuliffe, D., Rodríguez-Lera, F.J., Cardiff, P.: Reinforcement Learning Experiments and Bench- 21] Aumjaud, P., McAuliffe, D., Rodríguez-Lera, F.J., Cardiff, P.: Reinforcement Learning Experiments and Bench- 0.97
mark for Solving Robotic Reaching Tasks. ロボットリーチタスクを解決するためのマーク。 0.68
In: Advances in Physical Agents II, pp. In: Advances in Physical Agents II, pp。 0.78
318–331 (2021) 318–331 (2021) 0.84
7 7 0.85
               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。