論文の概要: SlotGNN: Unsupervised Discovery of Multi-Object Representations and
Visual Dynamics
- arxiv url: http://arxiv.org/abs/2310.04617v1
- Date: Fri, 6 Oct 2023 22:37:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 17:08:01.039388
- Title: SlotGNN: Unsupervised Discovery of Multi-Object Representations and
Visual Dynamics
- Title(参考訳): SlotGNN: マルチオブジェクト表現と視覚ダイナミクスの教師なし発見
- Authors: Alireza Rezazadeh, Athreyi Badithela, Karthik Desingh, Changhyun Choi
- Abstract要約: 本稿では,教師なし手法を用いて視覚データから多目的ダイナミクスを学習するための新しいフレームワークを提案する。
2つの新しいアーキテクチャ: RGBイメージからオブジェクト表現を発見するSlotTransportと、RGBイメージとロボットインタラクションからの集合的ダイナミクスを予測するSlotGNNである。
最小限の追加データだけで、われわれのフレームワークは現実世界の制御タスクにおけるスロットとその対応するダイナミクスをしっかりと予測する。
- 参考スコア(独自算出の注目度): 15.705023986053575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning multi-object dynamics from visual data using unsupervised techniques
is challenging due to the need for robust, object representations that can be
learned through robot interactions. This paper presents a novel framework with
two new architectures: SlotTransport for discovering object representations
from RGB images and SlotGNN for predicting their collective dynamics from RGB
images and robot interactions. Our SlotTransport architecture is based on slot
attention for unsupervised object discovery and uses a feature transport
mechanism to maintain temporal alignment in object-centric representations.
This enables the discovery of slots that consistently reflect the composition
of multi-object scenes. These slots robustly bind to distinct objects, even
under heavy occlusion or absence. Our SlotGNN, a novel unsupervised graph-based
dynamics model, predicts the future state of multi-object scenes. SlotGNN
learns a graph representation of the scene using the discovered slots from
SlotTransport and performs relational and spatial reasoning to predict the
future appearance of each slot conditioned on robot actions. We demonstrate the
effectiveness of SlotTransport in learning object-centric features that
accurately encode both visual and positional information. Further, we highlight
the accuracy of SlotGNN in downstream robotic tasks, including challenging
multi-object rearrangement and long-horizon prediction. Finally, our
unsupervised approach proves effective in the real world. With only minimal
additional data, our framework robustly predicts slots and their corresponding
dynamics in real-world control tasks.
- Abstract(参考訳): 教師なし技術を用いて視覚データから多目的ダイナミクスを学ぶことは、ロボットのインタラクションを通じて学習できる堅牢なオブジェクト表現を必要とするため、難しい。
本稿では,RGB画像からオブジェクト表現を発見するためのSlotTransportと,RGB画像からオブジェクトの集団的ダイナミクスを予測するSlotGNNの2つの新しいアーキテクチャを提案する。
我々のSlotTransportアーキテクチャは、教師なしオブジェクト発見のためのスロットアテンションに基づいており、オブジェクト中心表現における時間的アライメントを維持するために特徴輸送機構を使用している。
これにより、マルチオブジェクトシーンのコンポジションを一貫して反映するスロットの発見が可能になる。
これらのスロットは、重い閉塞や欠如の下でも、異なるオブジェクトに強く結合する。
我々のSlotGNNは、新しい教師なしグラフベースのダイナミックスモデルであり、マルチオブジェクトシーンの将来状態を予測する。
SlotGNNは、SlotTransportから発見されたスロットを用いてシーンのグラフ表現を学習し、リレーショナルおよび空間推論を行い、ロボットアクションに条件付けられた各スロットの将来の出現を予測する。
視覚情報と位置情報の両方を正確にエンコードするオブジェクト中心機能学習におけるSlotTransportの有効性を示す。
さらに,下流ロボットタスクにおけるslotgnnの精度についても強調する。
最後に、我々の教師なしのアプローチは実世界で有効であることを示す。
最小限の追加データだけで、われわれのフレームワークは現実世界の制御タスクにおけるスロットとその対応するダイナミクスを強く予測する。
関連論文リスト
- MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - Invariant Slot Attention: Object Discovery with Slot-Centric Reference
Frames [18.84636947819183]
自己組織化された方法でオブジェクトを学習するスロットベースのニューラルネットワークは、エキサイティングな進歩を遂げた。
本稿では,スロット中心参照フレームを用いた空間対称性の簡易かつ高効率な実装法を提案する。
提案手法は,CLEVR,Tetrominoes,CLEVR,Objects Room,MultiShapeNetなどの合成対象発見ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2023-02-09T23:25:28Z) - SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric
Models [30.313085784715575]
学習対象時間表現に基づくトランスフォーマーに基づく自己回帰モデルであるSlotFormerを紹介する。
本稿では,複雑なオブジェクト相互作用を持つデータセットの予測にSlotFormerをうまく適用する。
また,このようなタスクに特化して設計された手法と競合する,モデルベース計画の世界モデルとして機能する能力を示す。
論文 参考訳(メタデータ) (2022-10-12T01:53:58Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Lifelong 3D Object Recognition and Grasp Synthesis Using Dual Memory
Recurrent Self-Organization Networks [0.0]
人間は、これまで得られた知識を忘れずに、生涯にわたって新しい物体を認識し、操作することを学ぶ。
ほとんどの従来のディープニューラルネットワークでは、破滅的な忘れの問題のため、これは不可能である。
本稿では,物体認識と把握を同時に行うために,デュアルメモリリカレントニューラルネットワークとオートエンコーダを組み合わせたハイブリッドモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-23T11:14:13Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Learning Object-Based State Estimators for Household Robots [11.055133590909097]
我々は高次元観測と仮説に基づいてオブジェクトベースのメモリシステムを構築する。
シミュレーション環境と実画像の両方において動的に変化するオブジェクトの記憶を維持するシステムの有効性を実証する。
論文 参考訳(メタデータ) (2020-11-06T04:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。