論文の概要: Accelerating Grasp Exploration by Leveraging Learned Priors
- arxiv url: http://arxiv.org/abs/2011.05661v1
- Date: Wed, 11 Nov 2020 09:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 23:41:31.517206
- Title: Accelerating Grasp Exploration by Leveraging Learned Priors
- Title(参考訳): 事前学習の活用による把握探索の促進
- Authors: Han Yu Li, Michael Danielczuk, Ashwin Balakrishna, Vishal Satish, Ken
Goldberg
- Abstract要約: ロボットが新しい物体を把握できることは、eコマースのオーダーフルフィルメントとホームサービスに産業的応用をもたらす。
オンライン体験を用いて、未知の形状の物体を学習するトンプソンサンプリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 24.94895421569869
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of robots to grasp novel objects has industry applications in
e-commerce order fulfillment and home service. Data-driven grasping policies
have achieved success in learning general strategies for grasping arbitrary
objects. However, these approaches can fail to grasp objects which have complex
geometry or are significantly outside of the training distribution. We present
a Thompson sampling algorithm that learns to grasp a given object with unknown
geometry using online experience. The algorithm leverages learned priors from
the Dexterity Network robot grasp planner to guide grasp exploration and
provide probabilistic estimates of grasp success for each stable pose of the
novel object. We find that seeding the policy with the Dex-Net prior allows it
to more efficiently find robust grasps on these objects. Experiments suggest
that the best learned policy attains an average total reward 64.5% higher than
a greedy baseline and achieves within 5.7% of an oracle baseline when evaluated
over 300,000 training runs across a set of 3000 object poses.
- Abstract(参考訳): ロボットが新しい物体を把握できることは、eコマースのオーダーフルフィルメントとホームサービスに産業的応用をもたらす。
データ駆動の把握ポリシーは、任意のオブジェクトを把握するための一般的な戦略を学ぶことに成功している。
しかし、これらのアプローチは複雑な幾何学を持つオブジェクトや、トレーニング分布の外側にあるオブジェクトを把握できない可能性がある。
本稿では,オンライン体験を用いて未知形状の物体を把握できるトンプソンサンプリングアルゴリズムを提案する。
このアルゴリズムは、デクスタリティネットワークロボット把持プランナーから学習された事前情報を活用して、把持探索をガイドし、新たな対象の安定なポーズごとに把持成功の確率的推定を提供する。
Dex-Netでポリシーをシードすることで、これらのオブジェクトの堅牢な把握をより効率的に見つけることができます。
実験によると、最高の学習方針は、3000のオブジェクトのポーズで30万以上のトレーニングを実行すると、平均的な総報酬64.5%を、oracleのベースラインの5.7%以内に達成する。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Learning active tactile perception through belief-space control [21.708391958446274]
本稿では,創造的世界モデルを開発することにより,触覚探索政策を自律的に学習する手法を提案する。
本手法は,目的が所望のオブジェクト特性を推定することである3つのシミュレーションタスクに対して評価する。
提案手法は, 所望のプロパティに関する情報を直感的に収集するポリシーを発見できることがわかった。
論文 参考訳(メタデータ) (2023-11-30T21:54:42Z) - Probable Object Location (POLo) Score Estimation for Efficient Object
Goal Navigation [15.623723522165731]
本稿では,POLo(Probable Object Location)スコアを中心とした新しいフレームワークを提案する。
計算集約的なPOLoスコアを近似するためにトレーニングされたニューラルネットワークであるPOLoNetを導入することで、フレームワークの実用性をさらに向上する。
OVMM 2023チャレンジの第1フェーズを含む実験では,POLoNetを組み込んだエージェントが,幅広いベースライン手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-11-14T08:45:32Z) - GraspCaps: A Capsule Network Approach for Familiar 6DoF Object Grasping [6.72184534513047]
本稿では、親しみのあるオブジェクトに対して、ポイントあたりの6Dグリップ構成を生成する新しいアーキテクチャであるGraspCapsを提案する。
また,シミュレートアニールを用いた大規模オブジェクトグラスピングデータセットの生成手法も提案した。
実験結果から,提案手法の全体的なオブジェクトグラスピング性能は,選択したベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-10-07T15:32:34Z) - Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task
Learning [108.08083976908195]
既存の強化学習アルゴリズムで学習したポリシーは、実際は一般化可能であることを示す。
本稿では,100以上の幾何学的に異なる実世界のオブジェクトを,単一のジェネラリストポリシーで手動操作できることを示す。
興味深いことに、オブジェクトポイントクラウド表現によるマルチタスク学習は、より一般化するだけでなく、シングルオブジェクトのスペシャリストポリシーよりも優れています。
論文 参考訳(メタデータ) (2021-11-04T17:59:56Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Exploratory Grasping: Asymptotically Optimal Algorithms for Grasping
Challenging Polyhedral Objects [31.82394962213321]
本研究では,未知の多面体物体の信頼度を効率的に把握するための新しい問題設定である探索グラフ作成法を提案する。
オンラインラピッドグラフ探索戦略(BORGES)のための効率的なバンディットスタイルのアルゴリズムを提案する。
BORGESは、汎用的な把握パイプラインと、他の2つのオンライン学習アルゴリズムを大きく上回る。
論文 参考訳(メタデータ) (2020-11-11T08:42:30Z) - Follow the Object: Curriculum Learning for Manipulation Tasks with
Imagined Goals [8.98526174345299]
本稿では,想像対象目標の概念を紹介する。
特定の操作タスクに対して、興味のある対象は、まず自分自身で所望の目標位置に到達するように訓練される。
オブジェクトポリシーは、可塑性オブジェクト軌跡の予測モデルを構築するために利用されます。
提案するアルゴリズムであるFollow the Objectは、7つのMuJoCo環境で評価されている。
論文 参考訳(メタデータ) (2020-08-05T12:19:14Z) - PackIt: A Virtual Environment for Geometric Planning [68.79816936618454]
PackItは、幾何学的計画を行う能力を評価し、潜在的に学習する仮想環境である。
進化的アルゴリズムを用いて,一組の難解なパッケージングタスクを構築した。
論文 参考訳(メタデータ) (2020-07-21T22:51:17Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。