論文の概要: Multi-Modal Learning of Keypoint Predictive Models for Visual Object
Manipulation
- arxiv url: http://arxiv.org/abs/2011.03882v2
- Date: Fri, 25 Jun 2021 16:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:35:52.743474
- Title: Multi-Modal Learning of Keypoint Predictive Models for Visual Object
Manipulation
- Title(参考訳): 視覚オブジェクト操作のためのキーポイント予測モデルのマルチモーダル学習
- Authors: Sarah Bechtle, Neha Das and Franziska Meier
- Abstract要約: 人間は、新しい環境で物体を操作するという点において、素晴らしい一般化能力を持っている。
ロボットのためのこのようなボディスキーマの学習方法は、まだ未解決の問題である。
本研究では,視覚的潜在表現から物体を把握する際に,ロボットの運動モデルを拡張する自己教師型アプローチを開発する。
- 参考スコア(独自算出の注目度): 6.853826783413853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans have impressive generalization capabilities when it comes to
manipulating objects and tools in completely novel environments. These
capabilities are, at least partially, a result of humans having internal models
of their bodies and any grasped object. How to learn such body schemas for
robots remains an open problem. In this work, we develop an self-supervised
approach that can extend a robot's kinematic model when grasping an object from
visual latent representations. Our framework comprises two components: (1) we
present a multi-modal keypoint detector: an autoencoder architecture trained by
fusing proprioception and vision to predict visual key points on an object; (2)
we show how we can use our learned keypoint detector to learn an extension of
the kinematic chain by regressing virtual joints from the predicted visual
keypoints. Our evaluation shows that our approach learns to consistently
predict visual keypoints on objects in the manipulator's hand, and thus can
easily facilitate learning an extended kinematic chain to include the object
grasped in various configurations, from a few seconds of visual data. Finally
we show that this extended kinematic chain lends itself for object manipulation
tasks such as placing a grasped object and present experiments in simulation
and on hardware.
- Abstract(参考訳): 人間は、全く新しい環境でオブジェクトやツールを操作できるという印象的な一般化能力を持っている。
これらの能力は、少なくとも部分的には、人間の体の内部モデルと把握された物体を持つ結果である。
ロボットのボディスキーマを学習する方法は、まだ未解決の問題である。
本研究では,視覚潜在表現から物体をつかむ際にロボットの運動モデルを拡張できる自己教師付きアプローチを開発した。
本フレームワークは,(1) 物体上の視覚的キーポイントを予測するためにプロセプションと視覚を融合させて訓練したオートエンコーダアーキテクチャ,(2) 学習したキーポイント検出器を用いて,予測された視覚的キーポイントから仮想ジョイントを回帰することにより,キネマティックチェーンの拡張を学習する方法を示す。
提案手法は,マニピュレータの手にある物体の視覚的キーポイントを一貫して予測することを学び,数秒間の視覚データから,様々な構成で把握された物体を含む拡張キネマティックチェーンの学習を容易にする。
最後に, この拡張キネマティックチェーンは, 把握対象の配置やシミュレーション実験, ハードウェア上での実験など, オブジェクト操作作業に役立てることを示す。
関連論文リスト
- Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文 参考訳(メタデータ) (2023-11-06T03:26:41Z) - Object Discovery from Motion-Guided Tokens [50.988525184497334]
自動エンコーダ表現学習フレームワークを、モーションガイダンスと中間レベルの特徴トークン化により強化する。
我々のアプローチは、解釈可能なオブジェクト固有の中間レベルの特徴の出現を可能にする。
論文 参考訳(メタデータ) (2023-03-27T19:14:00Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating
3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。
それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。
本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文 参考訳(メタデータ) (2021-06-28T07:47:31Z) - Simultaneous Multi-View Object Recognition and Grasping in Open-Ended
Domains [0.0]
オープンなオブジェクト認識と把握を同時に行うために,メモリ容量を増強したディープラーニングアーキテクチャを提案する。
シミュレーションと実世界設定の両方において,本手法が未確認のオブジェクトを把握し,現場でのごくわずかな例を用いて,新たなオブジェクトカテゴリを迅速に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:12:11Z) - Unadversarial Examples: Designing Objects for Robust Vision [100.4627585672469]
現代の機械学習アルゴリズムの感度を入力摂動に活かし、「ロバストオブジェクト」を設計するフレームワークを開発しています。
標準ベンチマークから(シミュレーション中)ロボット工学まで,さまざまな視覚ベースのタスクに対するフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-22T18:26:07Z) - S3K: Self-Supervised Semantic Keypoints for Robotic Manipulation via
Multi-View Consistency [11.357804868755155]
視覚的表現として意味的な3Dキーポイントを提唱し,半教師あり学習目標を示す。
局所的なテクスチャベースのアプローチとは異なり、我々のモデルは広い領域からコンテキスト情報を統合する。
意味的キーポイントを特定することで、人間の理解可能な行動の高レベルなスクリプティングが可能になることを実証する。
論文 参考訳(メタデータ) (2020-09-30T14:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。