論文の概要: Contact Energy Based Hindsight Experience Prioritization
- arxiv url: http://arxiv.org/abs/2312.02677v2
- Date: Fri, 23 Feb 2024 14:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:37:02.104824
- Title: Contact Energy Based Hindsight Experience Prioritization
- Title(参考訳): コンタクトエネルギーをベースとした直視経験優先化
- Authors: Erdi Sayar, Zhenshan Bing, Carlo D'Eramo, Ozgur S. Oguz, Alois Knoll
- Abstract要約: 強化学習(RL)アルゴリズムでは,報酬の少ないマルチゴールロボット操作作業が困難である。
Hindsight Experience Replay (HER)のような最近のアルゴリズムは、失敗軌跡を生かして学習を高速化している。
本稿では,コンタクトによるリッチな情報に基づいて,リプレイバッファからサンプルを選択するための,CEBP(Contact Energy Based Prioritization)を提案する。
- 参考スコア(独自算出の注目度): 19.42106651692228
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Multi-goal robot manipulation tasks with sparse rewards are difficult for
reinforcement learning (RL) algorithms due to the inefficiency in collecting
successful experiences. Recent algorithms such as Hindsight Experience Replay
(HER) expedite learning by taking advantage of failed trajectories and
replacing the desired goal with one of the achieved states so that any failed
trajectory can be utilized as a contribution to learning. However, HER
uniformly chooses failed trajectories, without taking into account which ones
might be the most valuable for learning. In this paper, we address this problem
and propose a novel approach Contact Energy Based Prioritization~(CEBP) to
select the samples from the replay buffer based on rich information due to
contact, leveraging the touch sensors in the gripper of the robot and object
displacement. Our prioritization scheme favors sampling of contact-rich
experiences, which are arguably the ones providing the largest amount of
information. We evaluate our proposed approach on various sparse reward robotic
tasks and compare them with the state-of-the-art methods. We show that our
method surpasses or performs on par with those methods on robot manipulation
tasks. Finally, we deploy the trained policy from our method to a real Franka
robot for a pick-and-place task. We observe that the robot can solve the task
successfully. The videos and code are publicly available at:
https://erdiphd.github.io/HER_force
- Abstract(参考訳): 強化学習(rl)アルゴリズムでは,成功事例の収集に非効率性があるため,スパース報酬を伴うマルチゴールロボット操作タスクは困難である。
近年のHER(Hindsight Experience Replay)のようなアルゴリズムは、失敗軌跡を利用して目標を達成された状態の1つに置き換えることで学習を高速化し、失敗軌跡を学習への貢献として活用する。
しかし、彼女は、学習に最も価値のあるものについて考慮せずに、失敗した軌道を均一に選択する。
本稿では,この課題に対処し,接触によるリッチな情報に基づいてリプレイバッファからサンプルを選択し,ロボットのグリップ内のタッチセンサと物体の変位を活用するための,接触エネルギーに基づく優先順位付け(CEBP)手法を提案する。
当社の優先順位付け方式では,最も多くの情報を提供するコンタクトリッチなエクスペリエンスのサンプリングが推奨されている。
そこで本研究では,ロボットの課題に対して提案手法を評価し,最新手法と比較する。
本手法は,ロボット操作タスクにおいて,これらの手法に匹敵する性能あるいは性能を示す。
最後に,本手法から実物のフランカロボットに訓練されたポリシーを配置し,選択・配置作業を行う。
我々はロボットがその課題をうまく解決できることを観察する。
ビデオとコードは、https://erdiphd.github.io/HER_force.comで公開されている。
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Few-Shot Preference Learning for Human-in-the-Loop RL [13.773589150740898]
メタラーニングの成功に触発された我々は、先行タスクデータに対する嗜好モデルを事前訓練し、少数のクエリだけで新しいタスクに迅速に適応する。
メタワールドにおける操作ポリシーのトレーニングに必要なオンラインフィードバックの量を20$times$に削減し,実際のフランカ・パンダロボット上での手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-06T23:12:26Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Diversity-based Trajectory and Goal Selection with Hindsight Experience
Replay [8.259694128526112]
我々はHER(DTGSH)を用いた多様性に基づく軌道と目標選択を提案する。
提案手法は,全てのタスクにおいて,他の最先端手法よりも高速に学習し,高い性能を達成することができることを示す。
論文 参考訳(メタデータ) (2021-08-17T21:34:24Z) - Actionable Models: Unsupervised Offline Reinforcement Learning of
Robotic Skills [93.12417203541948]
与えられたデータセットの任意の目標状態に到達するために学習することによって、環境の機能的な理解を学ぶ目的を提案する。
提案手法は,高次元カメラ画像上で動作し,これまで見つからなかったシーンやオブジェクトに一般化した実ロボットの様々なスキルを学習することができる。
論文 参考訳(メタデータ) (2021-04-15T20:10:11Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Reward Engineering for Object Pick and Place Training [3.4806267677524896]
OpenAIのGymが提供するPick and Place環境を使って報酬をエンジニアリングしています。
OpenAIベースラインと環境のデフォルト設定では、目標位置とロボットエンドエフェクタ間の距離を用いて報酬関数を算出する。
また、学習ポリシーに特定のユーザ希望のトラジェクトリを導入することも可能でした。
論文 参考訳(メタデータ) (2020-01-11T20:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。