論文の概要: KINet: Unsupervised Forward Models for Robotic Pushing Manipulation
- arxiv url: http://arxiv.org/abs/2202.09006v3
- Date: Sat, 5 Aug 2023 21:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 01:28:28.577770
- Title: KINet: Unsupervised Forward Models for Robotic Pushing Manipulation
- Title(参考訳): KINet:ロボットプッシュ操作のための教師なしフォワードモデル
- Authors: Alireza Rezazadeh, Changhyun Choi
- Abstract要約: キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
- 参考スコア(独自算出の注目度): 8.572983995175909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-centric representation is an essential abstraction for forward
prediction. Most existing forward models learn this representation through
extensive supervision (e.g., object class and bounding box) although such
ground-truth information is not readily accessible in reality. To address this,
we introduce KINet (Keypoint Interaction Network) -- an end-to-end unsupervised
framework to reason about object interactions based on a keypoint
representation. Using visual observations, our model learns to associate
objects with keypoint coordinates and discovers a graph representation of the
system as a set of keypoint embeddings and their relations. It then learns an
action-conditioned forward model using contrastive estimation to predict future
keypoint states. By learning to perform physical reasoning in the keypoint
space, our model automatically generalizes to scenarios with a different number
of objects, novel backgrounds, and unseen object geometries. Experiments
demonstrate the effectiveness of our model in accurately performing forward
prediction and learning plannable object-centric representations for downstream
robotic pushing manipulation tasks.
- Abstract(参考訳): オブジェクト中心表現は前方予測に不可欠な抽象化である。
ほとんどの既存のフォワードモデルは、広範囲の監視(オブジェクトクラスやバウンディングボックスなど)を通してこの表現を学習するが、そのような基礎的な情報は現実にはアクセスできない。
これを解決するために、キーポイント表現に基づいたオブジェクトインタラクションを推論するエンドツーエンドのアン教師なしフレームワークKINet(Keypoint Interaction Network)を紹介します。
視覚的観察を用いて,オブジェクトとキーポイント座標を関連付けることを学び,キーポイント埋め込みとその関係の集合としてシステムのグラフ表現を発見する。
その後、コントラスト推定を用いてアクション条件フォワードモデルを学び、将来のキーポイント状態を予測する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクト、新しい背景、見えないオブジェクトのジオメトリを持つシナリオに自動的に一般化する。
実験は,下流ロボット操作タスクにおける前方予測と平面型物体中心表現の学習におけるモデルの有効性を実証する。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Flexible Networks for Learning Physical Dynamics of Deformable Objects [2.567499374977917]
本稿では, 粒子ベース表現を用いた変形可能な物体の将来の状態を推定するために, 時間的ポイントネット (TP-Net) というモデルを提案する。
TP-Netは、並列に設定された各入力ポイントからグローバルな特徴を抽出する共有特徴抽出器と、これらの特徴を集約して将来の予測を行う予測ネットワークから構成される。
実験により,我々のモデルは,リアルタイム予測速度で,合成データセットと実世界のデータセットの両方で最先端の性能を達成できることが実証された。
論文 参考訳(メタデータ) (2021-12-07T14:34:52Z) - Learning Models as Functionals of Signed-Distance Fields for
Manipulation Planning [51.74463056899926]
本研究では,シーン内のオブジェクトを表す符号付き距離場の目的を学習する,最適化に基づく操作計画フレームワークを提案する。
オブジェクトを符号付き距離場として表現することは、ポイントクラウドや占有率の表現よりも高い精度で、様々なモデルの学習と表現を可能にする。
論文 参考訳(メタデータ) (2021-10-02T12:36:58Z) - SORNet: Spatial Object-Centric Representations for Sequential
Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。
本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文 参考訳(メタデータ) (2021-09-08T19:36:29Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Multi-Modal Learning of Keypoint Predictive Models for Visual Object
Manipulation [6.853826783413853]
人間は、新しい環境で物体を操作するという点において、素晴らしい一般化能力を持っている。
ロボットのためのこのようなボディスキーマの学習方法は、まだ未解決の問題である。
本研究では,視覚的潜在表現から物体を把握する際に,ロボットの運動モデルを拡張する自己教師型アプローチを開発する。
論文 参考訳(メタデータ) (2020-11-08T01:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。