論文の概要: UMPNet: Universal Manipulation Policy Network for Articulated Objects
- arxiv url: http://arxiv.org/abs/2109.05668v1
- Date: Mon, 13 Sep 2021 02:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:21:42.607247
- Title: UMPNet: Universal Manipulation Policy Network for Articulated Objects
- Title(参考訳): UMPNet:Articulated Objectsのためのユニバーサルマニピュレーションポリシーネットワーク
- Authors: Zhenjia Xu, Zhanpeng He, Shuran Song
- Abstract要約: ユニバーサル・マニピュレーション・ポリシー・ネットワーク(UMPNet)
任意の調音オブジェクトを操作するためにクローズドループアクションシーケンスを推論する単一のイメージベースのポリシーネットワーク。
Arrow-of-Time アクション属性は、アクションがオブジェクトの状態を過去に戻すか、未来に戻すかを示す。
- 参考スコア(独自算出の注目度): 13.911764395800844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Universal Manipulation Policy Network (UMPNet) -- a single
image-based policy network that infers closed-loop action sequences for
manipulating arbitrary articulated objects. To infer a wide range of action
trajectories, the policy supports 6DoF action representation and varying
trajectory length. To handle a diverse set of objects, the policy learns from
objects with different articulation structures and generalizes to unseen
objects or categories. The policy is trained with self-guided exploration
without any human demonstrations, scripted policy, or pre-defined goal
conditions. To support effective multi-step interaction, we introduce a novel
Arrow-of-Time action attribute that indicates whether an action will change the
object state back to the past or forward into the future. With the
Arrow-of-Time inference at each interaction step, the learned policy is able to
select actions that consistently lead towards or away from a given state,
thereby, enabling both effective state exploration and goal-conditioned
manipulation. Video is available at https://youtu.be/KqlvcL9RqKM
- Abstract(参考訳): 任意の調音オブジェクトを操作するためにクローズドループアクションシーケンスを推論する単一のイメージベースのポリシーネットワークであるUniversal Manipulation Policy Network (UMPNet)を紹介する。
幅広い行動軌跡を推測するために、ポリシーは6DoFアクション表現と様々な軌道長をサポートする。
多様なオブジェクトを扱うために、ポリシーは異なるarticulation構造を持つオブジェクトから学び、目に見えないオブジェクトやカテゴリに一般化する。
この方針は、人間のデモやスクリプト化された方針、事前定義された目標条件なしで、自己誘導による探索で訓練される。
効果的なマルチステップインタラクションをサポートするために、アクションが過去や未来にオブジェクトの状態を変えるかどうかを示す新しいArrow-of-Timeアクション属性を導入します。
各インタラクションステップでのアロー・オブ・タイム推論によって、学習されたポリシは、与えられた状態に向かって、あるいは遠ざかるアクションを選択できるため、効果的な状態探索と目標条件付き操作の両方が可能になる。
ビデオはhttps://youtu.be/kqlvcl9rqkm。
関連論文リスト
- Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - Efficient Representations of Object Geometry for Reinforcement Learning
of Interactive Grasping Policies [29.998917158604694]
本稿では,様々な幾何学的に異なる実世界の物体の対話的把握を学習する強化学習フレームワークを提案する。
学習したインタラクティブなポリシーのビデオはhttps://maltemosbach.org/io/geometry_aware_grasping_policiesで公開されている。
論文 参考訳(メタデータ) (2022-11-20T11:47:33Z) - Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task
Learning [108.08083976908195]
既存の強化学習アルゴリズムで学習したポリシーは、実際は一般化可能であることを示す。
本稿では,100以上の幾何学的に異なる実世界のオブジェクトを,単一のジェネラリストポリシーで手動操作できることを示す。
興味深いことに、オブジェクトポイントクラウド表現によるマルチタスク学習は、より一般化するだけでなく、シングルオブジェクトのスペシャリストポリシーよりも優れています。
論文 参考訳(メタデータ) (2021-11-04T17:59:56Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - A GAN-Like Approach for Physics-Based Imitation Learning and Interactive
Character Control [2.2082422928825136]
物理的にシミュレートされた文字の対話的制御のためのシンプルで直感的なアプローチを提案する。
本研究は,GAN(Generative Adversarial Network)と強化学習に基づく。
我々は,本手法の適用性を,模倣と対話的な制御タスクの範囲で強調する。
論文 参考訳(メタデータ) (2021-05-21T00:03:29Z) - Learning visual policies for building 3D shape categories [130.7718618259183]
この領域における以前の作業は、しばしば既知のプリミティブの集合から特定のオブジェクトのインスタンスを組み立てる。
私たちは、同じカテゴリの他のインスタンスを組み立てるための視覚ポリシーを学びます。
我々の視覚アセンブリポリシーは、実際の画像なしで訓練され、実際のロボットで評価した場合、95%の成功率に達する。
論文 参考訳(メタデータ) (2020-04-15T17:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。