論文の概要: Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2210.00803v1
- Date: Mon, 3 Oct 2022 10:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 16:45:14.547687
- Title: Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization
- Title(参考訳): 近位最適化による関節空間におけるロボットマニピュレータの障害物回避
- Authors: Yongliang Wang and Hamidreza Kasaei
- Abstract要約: 本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
- 参考スコア(独自算出の注目度): 6.067589886362815
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reaching tasks with random targets and obstacles can still be challenging
when the robotic arm is operating in unstructured environments. In contrast to
traditional model-based methods, model-free reinforcement learning methods do
not require complex inverse kinematics or dynamics equations to be calculated.
In this paper, we train a deep neural network via an improved Proximal Policy
Optimization (PPO) algorithm, which aims to map from task space to joint space
for a 6-DoF manipulator. In particular, we modify the original PPO and design
an effective representation for environmental inputs and outputs to train the
robot faster in a larger workspace. Firstly, a type of action ensemble is
adopted to improve output efficiency. Secondly, the policy is designed to join
in value function updates directly. Finally, the distance between obstacles and
links of the manipulator is calculated based on a geometry method as part of
the representation of states. Since training such a task in real-robot is
time-consuming and strenuous, we develop a simulation environment to train the
model. We choose Gazebo as our first simulation environment since it often
produces a smaller Sim-to-Real gap than other simulators. However, the training
process in Gazebo is time-consuming and takes a long time. Therefore, to
address this limitation, we propose a Sim-to-Sim method to reduce the training
time significantly. The trained model is finally used in a real-robot setup
without fine-tuning. Experimental results showed that using our method, the
robot was capable of tracking a single target or reaching multiple targets in
unstructured environments.
- Abstract(参考訳): ロボットアームが非構造環境で動作している場合、ランダムな目標と障害物によるタスクの到達は依然として困難である。
従来のモデルに基づく手法とは対照的に、モデルフリー強化学習法は計算される複雑な逆運動学や力学方程式を必要としない。
本稿では,6自由度マニピュレータのタスク空間からジョイント空間へのマッピングを目的とした,ppo(proximal policy optimization)アルゴリズムの改良を通じて,深層ニューラルネットワークを訓練する。
特に,従来のPPOを修正し,環境入力の効果的な表現を設計し,より大きな作業空間においてロボットを高速に訓練する。
まず、出力効率を向上させるためにアクションアンサンブルの一種を採用する。
第二に、ポリシーはバリュー関数の更新に直接参加するように設計されている。
最後に、状態表現の一部として幾何法に基づいて、障害物とマニピュレータのリンクとの間の距離を算出する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
シミュレーション環境としてGazeboを選択するのは、他のシミュレータよりも小さなSim-to-Realギャップを生じることが多いからです。
しかし、ガゼボでの訓練には時間がかかり、時間がかかります。
そこで本研究では,この制限に対処するため,トレーニング時間を大幅に短縮するSim-to-Sim法を提案する。
トレーニングされたモデルは最終的に、微調整なしで実際のロボット設定で使用される。
実験の結果,ロボットは非構造環境において1つの目標を追跡したり,複数の目標に到達することができた。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Learning to navigate efficiently and precisely in real environments [14.52507964172957]
Embodied AIの文献は、HabitatやAI-Thorといったシミュレータで訓練されたエンドツーエンドエージェントに焦点を当てている。
本研究では,sim2realのギャップを最小限に抑えたシミュレーションにおけるエージェントのエンドツーエンドトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-01-25T17:50:05Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文 参考訳(メタデータ) (2023-03-07T08:16:46Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - DiffSkill: Skill Abstraction from Differentiable Physics for Deformable
Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。
特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。
次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文 参考訳(メタデータ) (2022-03-31T17:59:38Z) - Off Environment Evaluation Using Convex Risk Minimization [0.0]
本稿では,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。
対象領域におけるRLエージェントの性能を評価するために,シミュレータとともにこの推定器を使用できることを示す。
論文 参考訳(メタデータ) (2021-12-21T21:31:54Z) - SAGCI-System: Towards Sample-Efficient, Generalizable, Compositional,
and Incremental Robot Learning [41.19148076789516]
上記の4つの要件を満たすために,SAGCIシステムと呼ばれる体系的な学習フレームワークを導入する。
本システムはまず,ロボットの手首に搭載されたカメラによって収集された生点雲を入力とし,URDFに代表される周囲環境の初期モデリングを生成する。
そのロボットは、対話的な知覚を利用して環境と対話し、URDFのオンライン検証と修正を行う。
論文 参考訳(メタデータ) (2021-11-29T16:53:49Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - An advantage actor-critic algorithm for robotic motion planning in dense
and dynamic scenarios [0.8594140167290099]
本稿では,既存のアクター批判アルゴリズムを改良し,複雑な動作計画に適合する。
ロボットが目標を達成するまでの処理時間を短縮し、動き計画においてより高い成功率を達成する。
論文 参考訳(メタデータ) (2021-02-05T12:30:23Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。