論文の概要: Object-Centric Learning with Slot Attention
- arxiv url: http://arxiv.org/abs/2006.15055v2
- Date: Wed, 14 Oct 2020 08:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 20:45:50.493282
- Title: Object-Centric Learning with Slot Attention
- Title(参考訳): スロット注意による物体中心学習
- Authors: Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh
Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy, Thomas Kipf
- Abstract要約: 我々は、知覚表現と相互作用するアーキテクチャコンポーネントであるSlot Attentionモジュールを提示する。
Slot Attentionは、スロットと呼ばれるタスク依存の抽象表現を生成します。
Slot Attentionがオブジェクト中心の表現を抽出し、未知の合成を一般化できることを実証的に実証する。
- 参考スコア(独自算出の注目度): 43.684193749891506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning object-centric representations of complex scenes is a promising step
towards enabling efficient abstract reasoning from low-level perceptual
features. Yet, most deep learning approaches learn distributed representations
that do not capture the compositional properties of natural scenes. In this
paper, we present the Slot Attention module, an architectural component that
interfaces with perceptual representations such as the output of a
convolutional neural network and produces a set of task-dependent abstract
representations which we call slots. These slots are exchangeable and can bind
to any object in the input by specializing through a competitive procedure over
multiple rounds of attention. We empirically demonstrate that Slot Attention
can extract object-centric representations that enable generalization to unseen
compositions when trained on unsupervised object discovery and supervised
property prediction tasks.
- Abstract(参考訳): 複雑なシーンのオブジェクト中心の表現を学習することは、低レベルの知覚的特徴から効率的な抽象的推論を実現するための有望なステップである。
しかし、ほとんどのディープラーニングアプローチは、自然シーンの構成特性を捉えない分散表現を学習する。
本稿では、畳み込みニューラルネットワークの出力などの知覚表現と相互作用し、スロットと呼ぶタスク依存抽象表現の集合を生成するアーキテクチャコンポーネントであるSlot Attentionモジュールを提案する。
これらのスロットは交換可能であり、複数の注意を払って競争手順を専門にすることで、入力中の任意のオブジェクトにバインドすることができる。
我々は,教師なしのオブジェクト発見と教師なしプロパティ予測タスクで訓練された場合,スロットアテンションがオブジェクト中心の表現を抽出できることを実証的に証明する。
関連論文リスト
- Rotating Features for Object Discovery [74.1465486264609]
本稿では,複雑な特徴を高次元に一般化した回転特徴と,分散表現からオブジェクトを抽出する新たな評価手法を提案する。
これらの進歩により、分散オブジェクト中心の表現を単純な玩具から現実世界のデータに拡張することが可能になります。
論文 参考訳(メタデータ) (2023-06-01T12:16:26Z) - Object-centric Learning with Cyclic Walks between Parts and Whole [23.561434374097864]
複雑な自然環境からオブジェクト中心の表現を学習することで、人間と機械の両方が低レベルの知覚的特徴から推論できる。
視覚変換器から抽出した知覚的特徴と対象物との循環ウォークを提案する。
画素レベルや特徴レベルの再構成のためのデコーダを付加したオブジェクト中心モデルとは対照的に、循環ウォークは強力な学習信号を提供する。
論文 参考訳(メタデータ) (2023-02-16T01:54:06Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Recurrent Attention Models with Object-centric Capsule Representation
for Multi-object Recognition [4.143091738981101]
反復的な注目を伴うエンコーダ・デコーダモデルにおけるオブジェクト中心の隠れ表現は、注意と認識の効果的な統合をもたらすことを示す。
我々の研究は、再帰的なオブジェクト中心表現を注意を向ける計画に組み込むための一般的なアーキテクチャへの一歩を踏み出した。
論文 参考訳(メタデータ) (2021-10-11T01:41:21Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。