論文の概要: Unsupervised Conditional Slot Attention for Object Centric Learning
- arxiv url: http://arxiv.org/abs/2307.09437v1
- Date: Tue, 18 Jul 2023 17:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 13:34:12.808834
- Title: Unsupervised Conditional Slot Attention for Object Centric Learning
- Title(参考訳): オブジェクト中心学習のための教師なし条件付きスロット注意
- Authors: Avinash Kori, Francesco Locatello, Francesca Toni, Ben Glocker
- Abstract要約: Slot Attentionのような最近のオブジェクト中心表現法は、特別なスロットレベルバインディングを達成できない。
本稿では,新しい確率スロット辞書を用いた教師なし条件スロットアテンションを提案する。
提案手法は,シーン合成機能と,構成的視覚的推論のショット適応性タスクにおいて,顕著な向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 42.55929553390295
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Extracting object-level representations for downstream reasoning tasks is an
emerging area in AI. Learning object-centric representations in an unsupervised
setting presents multiple challenges, a key one being binding an arbitrary
number of object instances to a specialized object slot. Recent object-centric
representation methods like Slot Attention utilize iterative attention to learn
composable representations with dynamic inference level binding but fail to
achieve specialized slot level binding. To address this, in this paper we
propose Unsupervised Conditional Slot Attention using a novel Probabilistic
Slot Dictionary (PSD). We define PSD with (i) abstract object-level property
vectors as key and (ii) parametric Gaussian distribution as its corresponding
value. We demonstrate the benefits of the learnt specific object-level
conditioning distributions in multiple downstream tasks, namely object
discovery, compositional scene generation, and compositional visual reasoning.
We show that our method provides scene composition capabilities and a
significant boost in a few shot adaptability tasks of compositional visual
reasoning, while performing similarly or better than slot attention in object
discovery tasks
- Abstract(参考訳): ダウンストリーム推論タスクのためのオブジェクトレベルの表現の抽出は、aiの新たな領域だ。
教師なし設定でオブジェクト中心の表現を学ぶことは、複数の課題を示し、鍵となるのは、任意の数のオブジェクトインスタンスを特別なオブジェクトスロットにバインドすることである。
Slot Attentionのような最近のオブジェクト中心表現法は、動的推論レベルバインディングで構成可能な表現を学ぶために反復的注意を利用するが、特別なスロットレベルバインディングを達成できない。
そこで本稿では,新しい確率スロット辞書(PSD)を用いた教師なし条件スロット注意を提案する。
psdの定義は
(i)キーとしての抽象オブジェクトレベルのプロパティベクトル
(ii)パラメトリックガウス分布を対応する値とする。
本稿では,複数の下流タスク,すなわち,オブジェクト発見,構成シーン生成,構成的視覚的推論における学習対象レベルのコンディショニング分布の利点を示す。
提案手法は,オブジェクト発見タスクにおいてスロットアテンションよりもよく,あるいは良い動作をしながら,構成的視覚的推論のいくつかのショット適応性タスクにおいて,シーン構成能力と大幅な向上をもたらすことを示す。
関連論文リスト
- Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。
提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文 参考訳(メタデータ) (2024-07-10T15:36:00Z) - Neural Slot Interpreters: Grounding Object Semantics in Emergent Slot Representations [4.807052027638089]
本稿では,NSI(Neural Slot Interpreter)を提案する。
NSIはXMLに似たプログラミング言語で、単純な構文規則を使ってシーンのオブジェクトの意味をオブジェクト中心のプログラムプリミティブに整理する。
論文 参考訳(メタデータ) (2024-02-02T12:37:23Z) - Enhancing Interpretable Object Abstraction via Clustering-based Slot
Initialization [17.25953277219166]
本稿では,スロットを用いたオブジェクト中心表現の新しい手法を提案する。
我々の手法は先行処理を一貫して上回ります。
様々なデータセットを用いたオブジェクト発見と新しいビュー合成タスクについて評価する。
論文 参考訳(メタデータ) (2023-08-22T11:48:43Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Interpreting Embedding Spaces by Conceptualization [2.620130580437745]
本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい方法を提案する。
本研究では,人間のレーダやLDMをベースとしたレーダを用いた新しい評価手法を考案し,ベクトルが本来の潜伏状態のセマンティクスを実際に表現していることを示す。
論文 参考訳(メタデータ) (2022-08-22T15:32:17Z) - Fine-Grained Object Classification via Self-Supervised Pose Alignment [42.55938966190932]
我々は,クラス間の自己教師型ポーズアライメントのための局所部分のグローバルな構成を明らかにするために,新しいグラフベースのオブジェクト表現を学習する。
提案手法を3つの評価対象分類ベンチマークで評価し,最先端性能を継続的に達成した。
論文 参考訳(メタデータ) (2022-03-30T01:46:19Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z) - Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies [60.285091454321055]
我々は,アンカー埋め込みとスパース変換行列の小さな組を学習する,単純で効率的な埋め込みアルゴリズムを設計する。
テキスト分類、言語モデリング、映画レコメンデーションのベンチマークでは、ANTは大きな語彙サイズに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-03-18T13:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。