論文の概要: Learning Disentangled Representation in Object-Centric Models for Visual Dynamics Prediction via Transformers
- arxiv url: http://arxiv.org/abs/2407.03216v1
- Date: Wed, 3 Jul 2024 15:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 13:37:05.899982
- Title: Learning Disentangled Representation in Object-Centric Models for Visual Dynamics Prediction via Transformers
- Title(参考訳): 変圧器を用いた視覚力学予測のための物体中心モデルにおける不整合表現の学習
- Authors: Sanket Gandhi, Atul, Samanyu Mahajan, Vishal Sharma, Rushil Gupta, Arnab Kumar Mondal, Parag Singla,
- Abstract要約: 最近の研究は、オブジェクト中心の表現が学習力学の精度を大幅に向上させることを示した。
対象中心モデルにおける視覚力学予測の精度をさらに向上することは可能か?
我々は、オブジェクトが持つ可能性のある属性の種類について、具体的な仮定をすることなく、静的なイメージ citepnsb の場合のこのような非絡み合い表現を学習しようと試みる。
- 参考スコア(独自算出の注目度): 11.155818952879146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that object-centric representations can greatly help improve the accuracy of learning dynamics while also bringing interpretability. In this work, we take this idea one step further, ask the following question: "can learning disentangled representation further improve the accuracy of visual dynamics prediction in object-centric models?" While there has been some attempt to learn such disentangled representations for the case of static images \citep{nsb}, to the best of our knowledge, ours is the first work which tries to do this in a general setting for video, without making any specific assumptions about the kind of attributes that an object might have. The key building block of our architecture is the notion of a {\em block}, where several blocks together constitute an object. Each block is represented as a linear combination of a given number of learnable concept vectors, which is iteratively refined during the learning process. The blocks in our model are discovered in an unsupervised manner, by attending over object masks, in a style similar to discovery of slots \citep{slot_attention}, for learning a dense object-centric representation. We employ self-attention via transformers over the discovered blocks to predict the next state resulting in discovery of visual dynamics. We perform a series of experiments on several benchmark 2-D, and 3-D datasets demonstrating that our architecture (1) can discover semantically meaningful blocks (2) help improve accuracy of dynamics prediction compared to SOTA object-centric models (3) perform significantly better in OOD setting where the specific attribute combinations are not seen earlier during training. Our experiments highlight the importance discovery of disentangled representation for visual dynamics prediction.
- Abstract(参考訳): 近年の研究では、オブジェクト中心の表現は、解釈可能性ももたらしながら、学習力学の精度を大幅に向上させることができることが示されている。
この研究では、このアイデアをさらに一歩進めて、「対象中心モデルにおける視覚力学予測の精度をさらに向上できるか?
我々の知る限りでは、静的な画像の場合、このような非絡み合った表現を学習しようとする試みはいくつかあるが、私たちの研究は、オブジェクトが持つ可能性のある属性の種類について具体的な仮定をすることなく、ビデオの一般的な設定でこれを実行しようとする最初の試みである。
私たちのアーキテクチャのキーとなるビルディングブロックは、複数のブロックが一緒にオブジェクトを構成するような {\em block} の概念です。
各ブロックは与えられた多数の学習可能な概念ベクトルの線形結合として表現され、学習過程において反復的に洗練される。
我々のモデルにおけるブロックは、密集したオブジェクト中心の表現を学ぶために、スロットの発見に類似したスタイルで、オブジェクトマスクに出席することで、教師なしの方法で発見される。
我々は、探索されたブロック上で変圧器を介して自己注意を用いて次の状態を予測することにより、視覚力学の発見をもたらす。
我々は,いくつかのベンチマーク2-Dと,アーキテクチャ(1)が意味論的意味のあるブロックを発見できることを実証した3Dデータセットを用いて,一連の実験を行い,(2)SOTAオブジェクト中心モデルと比較して動的予測の精度を向上させること,(3)特定の属性の組み合わせが訓練中に早期に見られないOOD設定において著しく向上することを示す。
本実験は,視覚力学予測のためのアンタングル表現の重要性を明らかにする。
関連論文リスト
- Explicitly Disentangled Representations in Object-Centric Learning [0.0]
本稿では, オブジェクト中心のモデルを, 密接な形状やテクスチャ成分に偏在させる新しいアーキテクチャを提案する。
特に, オブジェクト中心のモデルを, 密接な形状やテクスチャ成分に偏在させる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-18T17:22:11Z) - Object-centric architectures enable efficient causal representation
learning [51.6196391784561]
観測対象が複数の物体である場合, 生成関数はもはや注入的ではなく, 実際に乱れは生じないことを示す。
スパース摂動からの弱い監督を利用して各オブジェクトのプロパティを乱すオブジェクト中心アーキテクチャを開発する。
このアプローチはユークリッド空間にエンコードする同等のアプローチよりもはるかに少ない摂動を必要とするという意味で、よりデータ効率が高い。
論文 参考訳(メタデータ) (2023-10-29T16:01:03Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - Towards an Interpretable Latent Space in Structured Models for Video
Prediction [30.080907495461876]
基礎となる物理力学が支配するビデオにおける将来のフレーム予測の課題に焦点をあてる。
我々は、オブジェクト中心のモデル、すなわち、オブジェクト表現を明示的に扱うモデルで作業し、潜在空間における損失を伝播する。
論文 参考訳(メタデータ) (2021-07-16T05:37:16Z) - Generalization and Robustness Implications in Object-Centric Learning [23.021791024676986]
本稿では,5つの共通オブジェクトデータセット上で,最先端の教師なしモデルを訓練する。
実験結果から,ダウンストリームタスクに一般的に有用なオブジェクト中心表現が得られた。
論文 参考訳(メタデータ) (2021-07-01T17:51:11Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。