論文の概要: KINet: Keypoint Interaction Networks for Unsupervised Forward Modeling
- arxiv url: http://arxiv.org/abs/2202.09006v1
- Date: Fri, 18 Feb 2022 03:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 21:01:37.483713
- Title: KINet: Keypoint Interaction Networks for Unsupervised Forward Modeling
- Title(参考訳): KINet:教師なしフォワードモデリングのためのキーポイントインタラクションネットワーク
- Authors: Alireza Rezazadeh, Changhyun Choi
- Abstract要約: 我々は、キーポイント表現に基づく複雑なシステムにおけるオブジェクトの相互作用を推論する、教師なしのフレームワークKINetを紹介する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
実験では,モデルの有効性を実証し,前方予測を正確に実行し,計画可能な対象中心表現を学習する。
- 参考スコア(独自算出の注目度): 8.572983995175909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object-centric representation is an essential abstraction for physical
reasoning and forward prediction. Most existing approaches learn this
representation through extensive supervision (e.g., object class and bounding
box) although such ground-truth information is not readily accessible in
reality. To address this, we introduce KINet (Keypoint Interaction Network) --
an end-to-end unsupervised framework to reason about object interactions in
complex systems based on a keypoint representation. Using visual observations,
our model learns to associate objects with keypoint coordinates and discovers a
graph representation of the system as a set of keypoint embeddings and their
relations. It then learns an action-conditioned forward model using contrastive
estimation to predict future keypoint states. By learning to perform physical
reasoning in the keypoint space, our model automatically generalizes to
scenarios with a different number of objects, and novel object geometries.
Experiments demonstrate the effectiveness of our model to accurately perform
forward prediction and learn plannable object-centric representations which can
also be used in downstream model-based control tasks.
- Abstract(参考訳): オブジェクト中心表現は、物理的推論と前方予測に不可欠な抽象化である。
既存のほとんどのアプローチはこの表現を広範囲な監視(オブジェクトクラスやバウンディングボックスなど)を通じて学習するが、現実ではそのような地平な情報は容易にアクセスできない。
そこで我々は、キーポイント表現に基づく複雑なシステムにおけるオブジェクトインタラクションを推論するためのエンドツーエンドの非教師付きフレームワークであるkinet(keypoint interaction network)を紹介する。
視覚的観察を用いて,オブジェクトとキーポイント座標を関連付けることを学び,キーポイント埋め込みとその関係の集合としてシステムのグラフ表現を発見する。
その後、コントラスト推定を用いてアクション条件フォワードモデルを学び、将来のキーポイント状態を予測する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトと新しいオブジェクトジオメトリを持つシナリオに自動的に一般化する。
実験は,下流モデルに基づく制御タスクでも使用可能な前方予測と計画可能なオブジェクト中心表現の学習を精度良く行うためのモデルの有効性を実証する。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Flexible Networks for Learning Physical Dynamics of Deformable Objects [2.567499374977917]
本稿では, 粒子ベース表現を用いた変形可能な物体の将来の状態を推定するために, 時間的ポイントネット (TP-Net) というモデルを提案する。
TP-Netは、並列に設定された各入力ポイントからグローバルな特徴を抽出する共有特徴抽出器と、これらの特徴を集約して将来の予測を行う予測ネットワークから構成される。
実験により,我々のモデルは,リアルタイム予測速度で,合成データセットと実世界のデータセットの両方で最先端の性能を達成できることが実証された。
論文 参考訳(メタデータ) (2021-12-07T14:34:52Z) - Learning Models as Functionals of Signed-Distance Fields for
Manipulation Planning [51.74463056899926]
本研究では,シーン内のオブジェクトを表す符号付き距離場の目的を学習する,最適化に基づく操作計画フレームワークを提案する。
オブジェクトを符号付き距離場として表現することは、ポイントクラウドや占有率の表現よりも高い精度で、様々なモデルの学習と表現を可能にする。
論文 参考訳(メタデータ) (2021-10-02T12:36:58Z) - SORNet: Spatial Object-Centric Representations for Sequential
Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。
本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文 参考訳(メタデータ) (2021-09-08T19:36:29Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Multi-Modal Learning of Keypoint Predictive Models for Visual Object
Manipulation [6.853826783413853]
人間は、新しい環境で物体を操作するという点において、素晴らしい一般化能力を持っている。
ロボットのためのこのようなボディスキーマの学習方法は、まだ未解決の問題である。
本研究では,視覚的潜在表現から物体を把握する際に,ロボットの運動モデルを拡張する自己教師型アプローチを開発する。
論文 参考訳(メタデータ) (2020-11-08T01:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。