論文の概要: UMPNet: Universal Manipulation Policy Network for Articulated Objects
- arxiv url: http://arxiv.org/abs/2109.05668v1
- Date: Mon, 13 Sep 2021 02:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:21:42.607247
- Title: UMPNet: Universal Manipulation Policy Network for Articulated Objects
- Title(参考訳): UMPNet:Articulated Objectsのためのユニバーサルマニピュレーションポリシーネットワーク
- Authors: Zhenjia Xu, Zhanpeng He, Shuran Song
- Abstract要約: ユニバーサル・マニピュレーション・ポリシー・ネットワーク(UMPNet)
任意の調音オブジェクトを操作するためにクローズドループアクションシーケンスを推論する単一のイメージベースのポリシーネットワーク。
Arrow-of-Time アクション属性は、アクションがオブジェクトの状態を過去に戻すか、未来に戻すかを示す。
- 参考スコア(独自算出の注目度): 13.911764395800844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Universal Manipulation Policy Network (UMPNet) -- a single
image-based policy network that infers closed-loop action sequences for
manipulating arbitrary articulated objects. To infer a wide range of action
trajectories, the policy supports 6DoF action representation and varying
trajectory length. To handle a diverse set of objects, the policy learns from
objects with different articulation structures and generalizes to unseen
objects or categories. The policy is trained with self-guided exploration
without any human demonstrations, scripted policy, or pre-defined goal
conditions. To support effective multi-step interaction, we introduce a novel
Arrow-of-Time action attribute that indicates whether an action will change the
object state back to the past or forward into the future. With the
Arrow-of-Time inference at each interaction step, the learned policy is able to
select actions that consistently lead towards or away from a given state,
thereby, enabling both effective state exploration and goal-conditioned
manipulation. Video is available at https://youtu.be/KqlvcL9RqKM
- Abstract(参考訳): 任意の調音オブジェクトを操作するためにクローズドループアクションシーケンスを推論する単一のイメージベースのポリシーネットワークであるUniversal Manipulation Policy Network (UMPNet)を紹介する。
幅広い行動軌跡を推測するために、ポリシーは6DoFアクション表現と様々な軌道長をサポートする。
多様なオブジェクトを扱うために、ポリシーは異なるarticulation構造を持つオブジェクトから学び、目に見えないオブジェクトやカテゴリに一般化する。
この方針は、人間のデモやスクリプト化された方針、事前定義された目標条件なしで、自己誘導による探索で訓練される。
効果的なマルチステップインタラクションをサポートするために、アクションが過去や未来にオブジェクトの状態を変えるかどうかを示す新しいArrow-of-Timeアクション属性を導入します。
各インタラクションステップでのアロー・オブ・タイム推論によって、学習されたポリシは、与えられた状態に向かって、あるいは遠ざかるアクションを選択できるため、効果的な状態探索と目標条件付き操作の両方が可能になる。
ビデオはhttps://youtu.be/kqlvcl9rqkm。
関連論文リスト
- Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion [41.52811286996212]
Make-An-Agentは、行動から政治への生成のための新しいポリシーパラメータジェネレータである。
所望の行動の1つの実演をプロンプトとして、エージェントに対して制御ポリシーを生成する方法を示す。
また,Make-An-Agentによって生成されたポリシーを,ロコモーションタスク上で現実世界のロボットに展開する。
論文 参考訳(メタデータ) (2024-07-15T17:59:57Z) - HACMan++: Spatially-Grounded Motion Primitives for Manipulation [28.411361363637006]
本稿では,HACMan++における空間的パラメータ化動作プリミティブについて紹介する。
環境中の空間的位置にプリミティブを接地することで、オブジェクトの形状を効果的に一般化し、バリエーションを表現できる。
提案手法は既存の手法,特に高レベルシーケンシャル推論とオブジェクト一般化の両方を必要とする複雑なシナリオにおいて,優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-07-11T15:10:14Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - ViViDex: Learning Vision-based Dexterous Manipulation from Human Videos [81.99559944822752]
我々は人間のビデオから視覚に基づくポリシー学習を改善するためにViViDexを提案する。
最初は強化学習と軌道誘導報酬を使って、各ビデオに対する州ベースのポリシーを訓練する。
次に、州ベースのポリシーから成功したエピソードをロールアウトし、特権情報を使用しずに統一された視覚ポリシーをトレーニングします。
論文 参考訳(メタデータ) (2024-04-24T07:58:28Z) - Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - Efficient Representations of Object Geometry for Reinforcement Learning
of Interactive Grasping Policies [29.998917158604694]
本稿では,様々な幾何学的に異なる実世界の物体の対話的把握を学習する強化学習フレームワークを提案する。
学習したインタラクティブなポリシーのビデオはhttps://maltemosbach.org/io/geometry_aware_grasping_policiesで公開されている。
論文 参考訳(メタデータ) (2022-11-20T11:47:33Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Learning visual policies for building 3D shape categories [130.7718618259183]
この領域における以前の作業は、しばしば既知のプリミティブの集合から特定のオブジェクトのインスタンスを組み立てる。
私たちは、同じカテゴリの他のインスタンスを組み立てるための視覚ポリシーを学びます。
我々の視覚アセンブリポリシーは、実際の画像なしで訓練され、実際のロボットで評価した場合、95%の成功率に達する。
論文 参考訳(メタデータ) (2020-04-15T17:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。