論文の概要: Reward Engineering for Object Pick and Place Training
- arxiv url: http://arxiv.org/abs/2001.03792v1
- Date: Sat, 11 Jan 2020 20:13:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 09:45:12.335319
- Title: Reward Engineering for Object Pick and Place Training
- Title(参考訳): オブジェクトピックとプレーストレーニングのためのリワードエンジニアリング
- Authors: Raghav Nagpal, Achyuthan Unni Krishnan and Hanshen Yu
- Abstract要約: OpenAIのGymが提供するPick and Place環境を使って報酬をエンジニアリングしています。
OpenAIベースラインと環境のデフォルト設定では、目標位置とロボットエンドエフェクタ間の距離を用いて報酬関数を算出する。
また、学習ポリシーに特定のユーザ希望のトラジェクトリを導入することも可能でした。
- 参考スコア(独自算出の注目度): 3.4806267677524896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic grasping is a crucial area of research as it can result in the
acceleration of the automation of several Industries utilizing robots ranging
from manufacturing to healthcare. Reinforcement learning is the field of study
where an agent learns a policy to execute an action by exploring and exploiting
rewards from an environment. Reinforcement learning can thus be used by the
agent to learn how to execute a certain task, in our case grasping an object.
We have used the Pick and Place environment provided by OpenAI's Gym to
engineer rewards. Hindsight Experience Replay (HER) has shown promising results
with problems having a sparse reward. In the default configuration of the
OpenAI baseline and environment the reward function is calculated using the
distance between the target location and the robot end-effector. By weighting
the cost based on the distance of the end-effector from the goal in the x,y and
z-axes we were able to almost halve the learning time compared to the baselines
provided by OpenAI, an intuitive strategy that further reduced learning time.
In this project, we were also able to introduce certain user desired
trajectories in the learnt policies (city-block / Manhattan trajectories). This
helps us understand that by engineering the rewards we can tune the agent to
learn policies in a certain way even if it might not be the most optimal but is
the desired manner.
- Abstract(参考訳): ロボットの把持は、製造から医療まで、いくつかの産業の自動化を加速させる可能性があるため、研究の重要な分野である。
強化学習(Reinforcement learning)とは、エージェントが環境から報酬を探索して活用することによって行動を実行する政策を学ぶ研究分野である。
したがって、強化学習はエージェントが特定のタスクの実行方法、例えばオブジェクトをつかむ方法を学ぶのに使うことができる。
OpenAIのGymが提供するPick and Place環境を使って報酬をエンジニアリングしています。
hindsight experience replay (her) は、わずかな報酬を持つ問題で有望な結果を示している。
OpenAIベースラインと環境のデフォルト設定では、目標位置とロボットエンドエフェクタ間の距離を用いて報酬関数を算出する。
x,y,z-axの目標からエンドエフェクタの距離に基づいてコストを重み付けすることで,学習時間をさらに短縮する直感的な戦略であるOpenAIが提供するベースラインと比較して,学習時間をほぼ半減することができたのです。
また,本プロジェクトでは,学習方針(都市ブロック/マンハッタントラジェクトリ)にユーザ希望のトラジェクトリを導入することができた。
これは、報酬をエンジニアリングすることで、最も最適ではないが望ましい方法であっても、エージェントが特定の方法でポリシーを学ぶように調整できることを理解するのに役立ちます。
関連論文リスト
- SuPLE: Robot Learning with Lyapunov Rewards [4.424170214926035]
外部の仮定を加えることなく、ダイナミクスの特性を使ってシステムに適切な報酬を生み出す。
我々は,「正のリアプノフ指数」(SuPLE)が,そのような報酬の設計の有力な候補であることを示す。
これは、任意の状態で訓練軌道を開始する必要をなくし、補助探査としても知られる。
論文 参考訳(メタデータ) (2024-11-20T03:20:50Z) - Deep Reinforcement Learning with Dynamic Graphs for Adaptive Informative Path Planning [22.48658555542736]
ロボットデータ取得における重要な課題は、当初未知の環境を抜けて観測を収集する計画経路である。
そこで本研究では,未知の3D環境において,ロボット経路を適応的に計画し,対象をマップする深層強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T14:24:41Z) - Contact Energy Based Hindsight Experience Prioritization [19.42106651692228]
強化学習(RL)アルゴリズムでは,報酬の少ないマルチゴールロボット操作作業が困難である。
Hindsight Experience Replay (HER)のような最近のアルゴリズムは、失敗軌跡を生かして学習を高速化している。
本稿では,コンタクトによるリッチな情報に基づいて,リプレイバッファからサンプルを選択するための,CEBP(Contact Energy Based Prioritization)を提案する。
論文 参考訳(メタデータ) (2023-12-05T11:32:25Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Planning Goals for Exploration [22.047797646698527]
Planning Exploratory Goals(PEG)は,本質的な探索報酬を直接最適化する訓練エピソード毎の目標を設定する手法である。
PEGは世界モデルを学び、サンプリングベースの計画アルゴリズムを適用して"目標コマンドを計画"する
論文 参考訳(メタデータ) (2023-03-23T02:51:50Z) - TransPath: Learning Heuristics For Grid-Based Pathfinding via
Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。
私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。
第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文 参考訳(メタデータ) (2022-12-22T14:26:11Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - On Reward Shaping for Mobile Robot Navigation: A Reinforcement Learning
and SLAM Based Approach [7.488722678999039]
本研究では,未知環境下を走行する移動ロボットを対象とした,深層強化学習(DRL)に基づくマップレス経路計画アルゴリズムを提案する。
プランナーは、トレーニング環境の地図のオンライン知識に基づいて、報酬関数を用いて訓練される。
シミュレーション環境で訓練されたポリシーを直接、実際のロボットに転送し、成功させることができる。
論文 参考訳(メタデータ) (2020-02-10T22:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。