論文の概要: PokeNet: Learning Kinematic Models of Articulated Objects from Human Observations
- arxiv url: http://arxiv.org/abs/2602.02741v1
- Date: Mon, 02 Feb 2026 19:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.103902
- Title: PokeNet: Learning Kinematic Models of Articulated Objects from Human Observations
- Title(参考訳): PokeNet:人間の観察から人工物体の運動モデルを学ぶ
- Authors: Anmol Gupta, Weiwei Gu, Omkar Patil, Jun Ki Lee, Nakul Gopalan,
- Abstract要約: 構音モデリングにより、ロボットは、効果的に操作するための調音物体の関節パラメータを学習することができる。
既存のアプローチは、しばしば、関節の数や種類など、オブジェクトに関する事前の知識に依存している。
我々はPokeNetを紹介した。PokeNetは、オブジェクトの事前の知識を使わずに、単一の人間の実演から調音モデルを推定するエンドツーエンドフレームワークである。
- 参考スコア(独自算出の注目度): 6.444995674543333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Articulation modeling enables robots to learn joint parameters of articulated objects for effective manipulation which can then be used downstream for skill learning or planning. Existing approaches often rely on prior knowledge about the objects, such as the number or type of joints. Some of these approaches also fail to recover occluded joints that are only revealed during interaction. Others require large numbers of multi-view images for every object, which is impractical in real-world settings. Furthermore, prior works neglect the order of manipulations, which is essential for many multi-DoF objects where one joint must be operated before another, such as a dishwasher. We introduce PokeNet, an end-to-end framework that estimates articulation models from a single human demonstration without prior object knowledge. Given a sequence of point cloud observations of a human manipulating an unknown object, PokeNet predicts joint parameters, infers manipulation order, and tracks joint states over time. PokeNet outperforms existing state-of-the-art methods, improving joint axis and state estimation accuracy by an average of over 27% across diverse objects, including novel and unseen categories. We demonstrate these gains in both simulation and real-world environments.
- Abstract(参考訳): 構音モデリングにより、ロボットは音節オブジェクトの関節パラメータを学習し、効果的に操作し、下流でスキル学習や計画に使用できる。
既存のアプローチは、しばしば、関節の数や種類など、オブジェクトに関する事前の知識に依存している。
これらのアプローチのいくつかは、相互作用中にのみ明らかにされる閉塞された関節の回復にも失敗する。
他のものは、現実の環境では非現実的な、すべてのオブジェクトに対して多数のマルチビューイメージを必要とする。
さらに、先行研究は操作の順序を無視しており、これは食器洗い機など、片方の関節をもう片方の関節で操作する必要がある多くのマルチDoFオブジェクトに必須である。
我々はPokeNetを紹介した。PokeNetは、オブジェクトの事前の知識を使わずに、単一の人間の実演から調音モデルを推定するエンドツーエンドフレームワークである。
未知のオブジェクトを操作する人間の点雲観測のシーケンスを与えられたPokeNetは、関節パラメータを予測し、操作順序を推測し、時間の経過とともに関節状態を追跡する。
PokeNetは既存の最先端手法よりも優れており、新しいカテゴリや目に見えないカテゴリを含むさまざまなオブジェクトの平均27%以上のジョイント軸と状態推定精度が向上している。
シミュレーションと実環境の両方でこれらの利点を実証する。
関連論文リスト
- Online Estimation and Manipulation of Articulated Objects [25.590726638870986]
サービスロボットは任意の調音されたオブジェクトを操作できなければならない。
近年の深層学習手法は、視覚から明瞭な物体が手に入ることに関して、価値ある先行を予測できることが示されている。
本稿では,これらの手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2026-01-04T08:52:56Z) - Learning Sequential Kinematic Models from Demonstrations for Multi-Jointed Articulated Objects [6.125464415922235]
マルチDoFオブジェクトに対する運動的制約と操作順序の両方をキャプチャする表現であるOKSMを紹介する。
Pokenetは、従来の方法と比較して、実世界のデータに対して、ジョイント軸と状態推定を20%以上改善する。
論文 参考訳(メタデータ) (2025-05-09T18:09:06Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - DemoGrasp: Few-Shot Learning for Robotic Grasping with Human
Demonstration [42.19014385637538]
本稿では,ロボットに対して,単純で短い人間の実演で物体をつかむ方法を教えることを提案する。
まず、人間と物体の相互作用を示すRGB-D画像の小さなシーケンスを提示する。
このシーケンスを使用して、インタラクションを表す手とオブジェクトメッシュを構築する。
論文 参考訳(メタデータ) (2021-12-06T08:17:12Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。