論文の概要: SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric
Models
- arxiv url: http://arxiv.org/abs/2210.05861v1
- Date: Wed, 12 Oct 2022 01:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:15:49.592026
- Title: SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric
Models
- Title(参考訳): slotformer:オブジェクト中心モデルによる教師なしビジュアルダイナミクスシミュレーション
- Authors: Ziyi Wu, Nikita Dvornik, Klaus Greff, Thomas Kipf, Animesh Garg
- Abstract要約: 学習対象時間表現に基づくトランスフォーマーに基づく自己回帰モデルであるSlotFormerを紹介する。
本稿では,複雑なオブジェクト相互作用を持つデータセットの予測にSlotFormerをうまく適用する。
また,このようなタスクに特化して設計された手法と競合する,モデルベース計画の世界モデルとして機能する能力を示す。
- 参考スコア(独自算出の注目度): 30.313085784715575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding dynamics from visual observations is a challenging problem that
requires disentangling individual objects from the scene and learning their
interactions. While recent object-centric models can successfully decompose a
scene into objects, modeling their dynamics effectively still remains a
challenge. We address this problem by introducing SlotFormer -- a
Transformer-based autoregressive model operating on learned object-centric
representations. Given a video clip, our approach reasons over object features
to model spatio-temporal relationships and predicts accurate future object
states. In this paper, we successfully apply SlotFormer to perform video
prediction on datasets with complex object interactions. Moreover, the
unsupervised SlotFormer's dynamics model can be used to improve the performance
on supervised downstream tasks, such as Visual Question Answering (VQA), and
goal-conditioned planning. Compared to past works on dynamics modeling, our
method achieves significantly better long-term synthesis of object dynamics,
while retaining high quality visual generation. Besides, SlotFormer enables VQA
models to reason about the future without object-level labels, even
outperforming counterparts that use ground-truth annotations. Finally, we show
its ability to serve as a world model for model-based planning, which is
competitive with methods designed specifically for such tasks.
- Abstract(参考訳): 視覚的な観察からダイナミクスを理解することは、個々の物体をシーンから切り離し、相互作用を学ぶことを必要とする難しい問題である。
最近のオブジェクト中心のモデルはシーンをオブジェクトに分解することに成功したが、そのダイナミクスを効果的にモデル化することは依然として課題である。
我々はslotformer -- 学習対象中心表現で動作するトランスフォーマティブベースの自己回帰モデルを導入することでこの問題に対処した。
ビデオクリップが与えられた場合、オブジェクトの特徴よりも、時空間関係をモデル化し、正確な将来のオブジェクト状態を予測する。
本稿では,複雑なオブジェクトインタラクションを伴うデータセットの映像予測にslotformerを適用した。
さらに、教師なしスロットフォーマーのダイナミクスモデルは、視覚質問応答(vqa)や目標条件の計画といった教師なしダウンストリームタスクのパフォーマンスを改善するのに使うことができる。
従来の動的モデリングと比較すると,オブジェクトの動的生成を高品質に保ちながら,オブジェクトの動的生成の長期化が著しく向上する。
さらに、SlotFormerはVQAモデルに対して、オブジェクトレベルのラベルなしで未来を推論することを可能にする。
最後に、このようなタスク用に特別に設計された手法と競合するモデルベースプランニングの世界モデルとして機能する能力を示す。
関連論文リスト
- Unsupervised Dynamics Prediction with Object-Centric Kinematics [22.119612406160073]
本稿では,オブジェクト中心表現を利用した動的予測フレームワークであるOcK(Object-Centric Kinematics)を提案する。
OCKは、物体の位置、速度、加速度の低レベルな構造化状態で構成されている。
本モデルは,多種多様なオブジェクト属性と動的動きを特徴とする複雑なシーンにおけるオブジェクトと背景の扱いにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-29T04:47:23Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - SlotDiffusion: Object-Centric Generative Modeling with Diffusion Models [47.986381326169166]
SlotDiffusion - 画像データとビデオデータの両方に設計されたオブジェクト中心の潜在拡散モデル(LDM)を紹介する。
LDMの強力なモデリング能力のおかげで、SlotDiffusionは教師なしオブジェクトセグメンテーションと視覚生成において、以前のスロットモデルを上回っている。
学習対象の特徴は、既存のオブジェクト中心のダイナミックスモデルによって利用することができ、ビデオ予測品質と下流時間推論タスクを改善することができる。
論文 参考訳(メタデータ) (2023-05-18T19:56:20Z) - Temporal Predictive Coding For Model-Based Planning In Latent Space [80.99554006174093]
時間的に予測可能な環境要素を符号化するために,時間的予測符号化を用いた情報理論的手法を提案する。
本稿では,DMControl タスクの背景を複雑な情報を含む自然なビデオに置き換える,標準的な DMControl タスクの挑戦的な修正について評価する。
論文 参考訳(メタデータ) (2021-06-14T04:31:15Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z) - Planning from Pixels using Inverse Dynamics Models [44.16528631970381]
本稿では,タスク完了にともなう未来の行動の順序を学習することで,潜在世界モデルを学ぶ新しい方法を提案する。
本研究では,視覚目標達成タスクの課題に対する提案手法の評価を行い,従来のモデルフリー手法と比較して性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-12-04T06:07:36Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Learning Predictive Representations for Deformable Objects Using
Contrastive Estimation [83.16948429592621]
視覚表現モデルと動的モデルの両方を協調的に最適化する新しい学習フレームワークを提案する。
我々は,標準モデルに基づく学習手法をロープや布の操作スイートで大幅に改善した。
論文 参考訳(メタデータ) (2020-03-11T17:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。